からっぽのしょこ

読んだら書く!書いたら読む!読書読読書読書♪同じ事は二度調べ(たく)ない

R-パッケージ-koRpus

koRpus(TreeTagger)の形態素解析結果をRMeCab::docDF()仕様に変換する

はじめに 英文(多言語)形態素解析器TreeTaggerをR言語で利用するためのパッケージkoRpusの出力を、RMeCab::docDF()の出力の仕様に加工します。 はじめに ファイル単位の出力をdocDF()仕様に変換 ・設定 ・英文形態素解析 ・品詞情報の対応表の準備 ・docDF()…

RとTreeTaggerで日本語英語混合文をテキスト分析するための前処理(複数文書)

〇はじめに ディレクトリ内の日本語と英語が混じった文書を、MeCabとTreeTggerとで一括で処理するためのコードです。処理の詳細は前回の記事をご覧ください。といいますか、基本時に前回の内容をforでくっつけたものです。最終的に単語文書行列が作成されま…

RとTreeTaggerで日本語英語混合文をテキスト分析するための前処理

〇はじめに 歌詞をテキスト分析することを目標に勉強しているのですが、歌詞には英語のテキストが頻繁に出てきます。MeCabだと英単語に品詞タグをうまく付けられないようです。その回避策として組んだものです。 日本語と英語の混合文から英語のみを抜き出し…