koRpus(TreeTagger)の形態素解析結果をRMeCab::docDF()仕様に変換する

はじめに英文(多言語)形態素解析器TreeTaggerをR言語で利用するためのパッケージkoRpusの出力を、RMeCab::docDF()の出力の仕様に加工します。はじめにファイル単位の出力をdocDF()仕様に変換・設定・英文形態素解析・品詞情報の対応表の準備・docDF()…

RとTreeTaggerで日本語英語混合文をテキスト分析するための前処理(複数文書)

〇はじめにディレクトリ内の日本語と英語が混じった文書を、MeCabとTreeTggerとで一括で処理するためのコードです。処理の詳細は前回の記事をご覧ください。といいますか、基本時に前回の内容をforでくっつけたものです。最終的に単語文書行列が作成されま…

〇はじめに歌詞をテキスト分析することを目標に勉強しているのですが、歌詞には英語のテキストが頻繁に出てきます。MeCabだと英単語に品詞タグをうまく付けられないようです。その回避策として組んだものです。日本語と英語の混合文から英語のみを抜き出し…