koRpusパッケージ
はじめに 英文(多言語)形態素解析器TreeTaggerをR言語で利用するためのパッケージkoRpusの出力を、RMeCab::docDF()の出力の仕様に加工します。 はじめに ファイル単位の出力をdocDF()仕様に変換 ・設定 ・英文形態素解析 ・品詞情報の対応表の準備 ・docDF()…
〇はじめに ディレクトリ内の日本語と英語が混じった文書を、MeCabとTreeTggerとで一括で処理するためのコードです。処理の詳細は前回の記事をご覧ください。といいますか、基本時に前回の内容をforでくっつけたものです。最終的に単語文書行列が作成されま…
〇はじめに 歌詞をテキスト分析することを目標に勉強しているのですが、歌詞には英語のテキストが頻繁に出てきます。MeCabだと英単語に品詞タグをうまく付けられないようです。その回避策として組んだものです。 日本語と英語の混合文から英語のみを抜き出し…