からっぽのしょこ

読んだら書く!書いたら読む!同じ事は二度調べ(たく)ない

2019-01-01から1ヶ月間の記事一覧

こぶつば楽曲の歌詞をテキスト分類したい⑤~ランダムフォレスト~

〇はじめに この記事ではRを使って教師あり学習のランダムフォレストによる文書分類を行います。ランダムフォレストとは決定木の手法を用いたアンサンブル学習です。基本的な内容は本に沿ってやっているので、詳しい説明は参考書籍をご参照ください。 こぶし…

こぶつば楽曲の歌詞をテキスト分類したい④~k近傍法~

〇はじめに この記事ではRを使って教師あり学習のk近傍法による文書分類を行います。k近傍法とは、各データの特徴量を基に、特徴の近いk個のデータの内の多い方のグループに分類する手法です。基本的な内容は本に沿ってやっているので、詳しい説明は参考書籍…

こぶつば楽曲の歌詞をテキスト分類したい③~線形判別分析~

〇はじめに この記事ではRを使って教師あり学習の線形判別分析を行います。2グループの文書を使い、訓練データから判別式を求めて、評価データを分類して分類精度を見ます。基本的な内容は本に沿ってやっているので、詳しい説明は参考書籍をご参照ください。…

こぶつば楽曲の歌詞をテキスト分類したい②~階層型クラスター分析~

○はじめに Rを使って機械学習の分野で言うところの教師なし学習である階層型クラスター分析を行います。 テキスト中に使われている文字・単語の頻度を用いて各テキストの類似性を測り、グループに分類していきます。階層型というのは、1つずつのデータを小さ…

こぶつば楽曲の歌詞をテキスト分類したい①~分析データの整形と確認~

〇はじめに 以前の記事でデータの加工をほとんどせずにテキスト分類を行ったところ、結果はお察しでした(一応この記事とこれです)。あれからひと月が経ち多少知識も増えたので再挑戦しました。 いくつかの記事に分けて、データ整形、特徴語の選択、クラスタ…