2018-12-01から1ヶ月間の記事一覧
〇はじめに RMeCabパッケージのNgram()やdocDF()を使ってシンプルにn-gramの頻度表を作成し、共起ネットワークを作ろうとすると、不要な単語の処理で不都合が生じました。n-gramの組ができた状態で片方の単語を削除すると、残したいもう片方の単語の連なりも…
〇はじめに ディレクトリ内の日本語と英語が混じった文書を、MeCabとTreeTggerとで一括で処理するためのコードです。処理の詳細は前回の記事をご覧ください。といいますか、基本時に前回の内容をforでくっつけたものです。最終的に単語文書行列が作成されま…
〇はじめに 歌詞をテキスト分析することを目標に勉強しているのですが、歌詞には英語のテキストが頻繁に出てきます。MeCabだと英単語に品詞タグをうまく付けられないようです。その回避策として組んだものです。 日本語と英語の混合文から英語のみを抜き出し…
〇はじめに この記事の内容を書き直した↓の記事を参照してください。www.anarchive-beta.com tidyverseに対応した内容になっています。 Rでカラーコードを指定する時用に作りました。単にカラーコード一覧として使ってもいいのですが、メンバーカラーを指定…
〇はじめに 前回はこぶつば楽曲を分類(クラスタリング)しました。 www.anarchive-beta.com 今回は分類(カテゴライズ)です。線形判別分析(linear discriminant analysis)に挑戦します。線形判別分析とは、AかBかが分かっている訓練データを用いてAとBを分ける…
〇はじめに 前回はネットワークグラフとワードクラウドを作成しました。 www.anarchive-beta.com 今回はクラスター分析を行います。文書中の単語を基に類似度を測り分類していきます。 参考書籍 『Rによるテキストマイニング入門』石田基広,森北出版株式会社…
〇はじめに 前回は文書中の単語ごとの出現頻度を計測しました。 www.anarchive-beta.com今回は視覚化していきます。前回のようにテキストを数値で捉えたものを、視覚的に捉えられる形式に加工します。具体的には、ネットワークグラフとワードクラウドを作成…
〇はじめに はじめまして!実質初記事です。よろしくお願いします。まずPC環境周りの情報とか載せるべきなのでしょうがその内書き足します。レイアウト的なのもその内調べて改修予定です。(そういう事を始めに調べ出すのは、自分がやらない理由作りをする時…
・ご挨拶 はじめまして!読んでくれてありがとうございます。 このブログはいわゆる備忘録ブログです。半年ほど行き当たりばったりに勉強していたところ中々身に付かなかったため、記録・記憶用に立ち上げました。「得た知識を形にして積み重ねていこう」が…