共起ネットワークの作成と編集

R R-組んでみた自然言語処理(未分類)

〇はじめに RMeCabパッケージのNgram()やdocDF()を使ってシンプルにn-gramの頻度表を作成し、共起ネットワークを作ろうとすると、不要な単語の処理で不都合が生じました。n-gramの組ができた状態で片方の単語を削除すると、残したいもう片方の単語の連なりも…

2018-12-09

RとTreeTaggerで日本語英語混合文をテキスト分析するための前処理(複数文書)

R R-組んでみた R-パッケージ R-パッケージ-koRpus 自然言語処理(未分類)

〇はじめにディレクトリ内の日本語と英語が混じった文書を、MeCabとTreeTggerとで一括で処理するためのコードです。処理の詳細は前回の記事をご覧ください。といいますか、基本時に前回の内容をforでくっつけたものです。最終的に単語文書行列が作成されま…

2018-12-08

RとTreeTaggerで日本語英語混合文をテキスト分析するための前処理

R R-組んでみた R-パッケージ R-パッケージ-koRpus 自然言語処理(未分類)

〇はじめに歌詞をテキスト分析することを目標に勉強しているのですが、歌詞には英語のテキストが頻繁に出てきます。MeCabだと英単語に品詞タグをうまく付けられないようです。その回避策として組んだものです。日本語と英語の混合文から英語のみを抜き出し…

2018-12-06

R用ハロプロのメンバーカラー色見本

R R-組んでみた H!P archive

〇はじめにこの記事の内容を書き直した↓の記事を参照してください。www.anarchive-beta.com tidyverseに対応した内容になっています。 Rでカラーコードを指定する時用に作りました。単にカラーコード一覧として使ってもいいのですが、メンバーカラーを指定…

2018-12-05

【テキストマイニング入門】R言語でこぶつば楽曲を線形判別分析して分類できなかった【やってみた】

自然言語処理(未分類) 自然言語処理-やってみた R H!P

〇はじめに前回はこぶつば楽曲を分類(クラスタリング)しました。 www.anarchive-beta.com 今回は分類(カテゴライズ)です。線形判別分析(linear discriminant analysis)に挑戦します。線形判別分析とは、AかBかが分かっている訓練データを用いてAとBを分ける…