からっぽのしょこ

読んだら書く!書いたら読む!同じ事は二度調べ(たく)ない

2019-01-01から1年間の記事一覧

3.4:混合ユニグラムモデルの変分ベイズ推定の導出【『トピックモデル』の勉強ノート】

はじめに 機械学習プロフェッショナルシリーズの『トピックモデル』の勉強時に自分の理解の助けになったことや勉強会資料のまとめです。トピックモデルの各種アルゴリズムを「数式」と「プログラム」から理解することを目指します。 この記事は、3.4節「変分…

3.3:混合ユニグラムモデルの最尤推定(EMアルゴリズム)の導出【『トピックモデル』の勉強ノート】

はじめに 機械学習プロフェッショナルシリーズの『トピックモデル』の勉強時に自分の理解の助けになったことや勉強会資料のまとめです。トピックモデルの各種アルゴリズムを「数式」と「プログラム」から理解することを目指します。 この記事は、3.3節「EMア…

『トピックモデル』の勉強ノート:記事一覧

はじめに 『トピックモデル』(MLPシリーズ)の勉強会資料のまとめです。各種モデルやアルゴリズムを「数式」と「プログラム」を用いて解説します。 本の補助として読んでください。 この記事は、各節の内容のリンクページです。 各記事では、「数式の行間を埋…

2.7:ユニグラムモデルのハイパーパラメータ推定【『トピックモデル』の勉強ノート】

はじめに 機械学習プロフェッショナルシリーズの『トピックモデル』の勉強時に自分の理解の助けになったことや勉強会資料のまとめです。トピックモデルの各種アルゴリズムを「数式」と「プログラム」から理解することを目指します。 この記事は、2.7節「ハイ…

2.5-6:ユニグラムモデルのベイズ推定とベイズ予測分布【『トピックモデル』の勉強ノート】

はじめに 機械学習プロフェッショナルシリーズの『トピックモデル』の勉強時に自分の理解の助けになったことや勉強会資料のまとめです。トピックモデルの各種アルゴリズムを「数式」と「プログラム」から理解することを目指します。 この記事は、2.5節「ベイ…

2.3:ユニグラムモデルの最尤推定【『トピックモデル』の勉強ノート】

はじめに 機械学習プロフェッショナルシリーズの『トピックモデル』の勉強時に自分の理解の助けになったことや勉強会資料のまとめです。トピックモデルの各種アルゴリズムを「数式」と「プログラム」から理解することを目指します。 この記事は、2.3節「最尤…

ディリクレ分布の統計量の導出

はじめに 機械学習で登場する確率分布について色々な角度から理解したいシリーズです。 この記事では、ベータ分布の期待値・分散・共分散・最頻値・対数の期待値を導出します。 【前の内容】 www.anarchive-beta.com 【他の記事一覧】 www.anarchive-beta.co…

ベータ分布の統計量の導出

はじめに 機械学習で登場する確率分布について色々な角度から理解したいシリーズです。 この記事では、ベータ分布の期待値・分散・最頻値を導出します。 【前の内容】 www.anarchive-beta.com 【他の記事一覧】 www.anarchive-beta.com 【この記事の内容】 …

多項分布の平均と分散の導出

はじめに 機械学習で登場する確率分布について色々な角度から理解したいシリーズです。 多項分布の統計量を導出します。 【前の内容】 www.anarchive-beta.com 【他の記事一覧】 www.anarchive-beta.com 【この記事の内容】 はじめに 多項分布の統計量の導出…

二項分布の平均と分散の導出:定義式を利用

はじめに 機械学習で登場する確率分布について色々な角度から理解したいシリーズです。 二項分布の統計量を定義式から導出します。 【前の内容】 www.anarchive-beta.com 【他の記事一覧】 www.anarchive-beta.com 【この記事の内容】 はじめに 二項分布の統…

1.1.11:ラグランジュの未定乗数法【『トピックモデル』の勉強ノート】

はじめに 機械学習プロフェッショナルシリーズの『トピックモデル』の勉強時に自分の理解の助けになったことや勉強会資料のまとめです。トピックモデルの各種アルゴリズムを「数式」と「プログラム」から理解することを目指します。 この記事は、1.1.10項「…

1.1.8-10:カルバック・ライブラー・ダイバージェンスとイェンゼンの不等式【『トピックモデル』の勉強ノート】

はじめに 機械学習プロフェッショナルシリーズの『トピックモデル』の勉強時に自分の理解の助けになったことや勉強会資料のまとめです。トピックモデルの各種アルゴリズムを「数式」と「プログラム」から理解することを目指します。 この記事は、1.1.8項「カ…

1.1.1-7:確率の基礎【『トピックモデル』の勉強ノート】

はじめに 機械学習プロフェッショナルシリーズの『トピックモデル』の勉強時に自分の理解の助けになったことや勉強会用のレジュメのまとめです。トピックモデルの各種アルゴリズムを「数式」と「プログラム」から理解することを目指します。 この記事は、1.1…

太宰治作品の話者判別

はじめに 計量言語学・計量文献学に著者推定・著者判別というものがあります。文書中の単語の出現頻度などから、著者の癖といったものを割り出すことで著者を識別します。この手法は、作者不明作品の執筆者の推定やスパムメールの判別に応用されます。 この…

R言語でツイートテキストのネガポジ分析

はじめに ツイートテキストに対して感情分析を行います。 感情分析とは(ざっくり言うと)、テキストに含まれている単語がそれぞれネガティブな表現なのかポジティブな表現なのかを評価し、テキスト全体がネガ・ポジどちらなのかを判定するものです。 【分析手…

R言語でツイート数をヒートマップ化する

はじめに rtweetパッケージを利用して、指定したアカウントのタイムラインインを収集し、設定した期間(年・月・日・時)ごとのツイート数を集計し、ヒートマップによる可視化を行います。 ヒートマップ 【目次】 はじめに ツイート数のヒートマップを作成 ・…

R言語でツイート数の推移をグラフにする

はじめに rtweetパッケージを利用して指定したアカウントのタイムラインを収集し、設定した期間ごとにツイート数を集計し、ツイート数を棒グラフによって可視化します。 ツイート数(日別) はじめに ・ツイート数を棒グラフで可視化 ・ツイート収集 ・年・月…

R言語でトピックモデルとクラスタリング

はじめに 複数のテキストを対象に、トピックモデル(LDA:Latent Dirichlet Allocation)によるテキスト分析を行います。その分析結果を基にクラスタリングを行い、デンドログラム(樹形図)による可視化を行います。 この記事の内容は『テキストアナリティクス』…

R言語でTwitterのフォロー関係をネットワークグラフにする

はじめに Twitter APIを取得したので早速遊んでみた内容をメモレベルですが記事にしました。 rtweetパッケージを使って、指定したアカウントがフォローしているアカウントを拾ってくる。更に、抽出したアカウントがフォローしているアカウントも抽出する。収…

rtweetパッケージを使ってツイートを収集しようとしたら何かエラーが出たのでその対処法など

はじめに Twitterの開発者アカウントを作成しAPIも無事取得できたのに、Rでツイートを集めようとしたら詰まってしまい、解決策を調べても日本語の記事があまり引っかからなかったので記事として残しておきます。 rtweetパッケージを使ってR言語でツイートデ…

こぶつば楽曲の歌詞をテキスト分類したい⑥~サポートベクターマシン~

〇はじめに この記事ではRを使って教師あり学習のサポートベクターマシンによる文書分類を行います。基本的な内容は本に沿ってやっているので、詳しい説明は参考書籍をご参照ください。 こぶしとつばきの歌詞を文字・単語に切り分け、曲ごとの出現頻度を特徴…

当面の目標

◯はじめに 普段は不言実行が信条なのですが大抵不実行というオチなので、宣言しておこうかと思い書く記事です。まぁそういう本を最近読みまして、大事だよなぁと感じたというのもあります。 ◯2・3月の目標あるいは勉強の目的 ・テキストマイニング 入門書を…

こぶつば楽曲の歌詞をテキスト分類したい⑤~ランダムフォレスト~

〇はじめに この記事ではRを使って教師あり学習のランダムフォレストによる文書分類を行います。ランダムフォレストとは決定木の手法を用いたアンサンブル学習です。基本的な内容は本に沿ってやっているので、詳しい説明は参考書籍をご参照ください。 こぶし…

こぶつば楽曲の歌詞をテキスト分類したい④~k近傍法~

〇はじめに この記事ではRを使って教師あり学習のk近傍法による文書分類を行います。k近傍法とは、各データの特徴量を基に、特徴の近いk個のデータの内の多い方のグループに分類する手法です。基本的な内容は本に沿ってやっているので、詳しい説明は参考書籍…

こぶつば楽曲の歌詞をテキスト分類したい③~線形判別分析~

〇はじめに この記事ではRを使って教師あり学習の線形判別分析を行います。2グループの文書を使い、訓練データから判別式を求めて、評価データを分類して分類精度を見ます。基本的な内容は本に沿ってやっているので、詳しい説明は参考書籍をご参照ください。…

こぶつば楽曲の歌詞をテキスト分類したい②~階層型クラスター分析~

○はじめに Rを使って機械学習の分野で言うところの教師なし学習である階層型クラスター分析を行います。 テキスト中に使われている文字・単語の頻度を用いて各テキストの類似性を測り、グループに分類していきます。階層型というのは、1つずつのデータを小さ…

こぶつば楽曲の歌詞をテキスト分類したい①~分析データの整形と確認~

〇はじめに 以前の記事でデータの加工をほとんどせずにテキスト分類を行ったところ、結果はお察しでした(一応この記事とこれです)。あれからひと月が経ち多少知識も増えたので再挑戦しました。 いくつかの記事に分けて、データ整形、特徴語の選択、クラスタ…