はじめに
機械学習プロフェッショナルシリーズの『トピックモデル』の勉強時に理解の助けになったことや勉強会用レジュメのまとめです。トピックモデルの各種アルゴリズムを「数式」と「プログラム」から理解することを目指します。
基本的な内容は「数式の行間を高校数学レベルで埋める」と「疑似コードを基本的な関数で実装する」になります。本とあわせて読んでください。
この記事は、各節の解説記事へのリンクページです。
【目次】
- はじめに
- Chpter1 確率の基礎
- Chapter2 ユニグラムモデル
- Chapter3 混合ユニグラムモデル
- Chapter 4 トピックモデル
- Chapter 5 トピックモデルの拡張:他の情報も利用する
- Chapter 6 トピックモデルの拡張:トピックに構造を入れる
- 参考書籍
- おわりに
Chpter1 確率の基礎
1.1 確率
1.2 確率分布
Chapter2 ユニグラムモデル
Chapter3 混合ユニグラムモデル
3.3 EMアルゴリズム
【数式編】
【プログラム編】
3.4 変分ベイズ推定
【数式編】
【プログラム編】
3.5 ギブズサンプリング
【数式編】
【プログラム編】
Chapter 4 トピックモデル
4.3 最尤推定
【理論】
【実装】
4.4 変分ベイズ推定
【理論】
【実装】
4.5 ギブズサンプリング
【理論】
【実装】
Chapter 5 トピックモデルの拡張:他の情報も利用する
Chapter 6 トピックモデルの拡張:トピックに構造を入れる
白トピ本の4章が終わったらね。
参考書籍
- 岩田具治(2015)『トピックモデル』(機械学習プロフェッショナルシリーズ)講談社
おわりに
微積から怪しい人でも「トピックモデル」を理解できる!をコンセプトに書いております。
高校数学から投げ出してしまったことを今更後悔している自分向けの解説です。分かる人にとってはかなりくどい説明になっているかと思います。
現在勉強中ですので理解の程はまだ粗いですが、機械学習関連の入門書も入手しましたので何周かしながら加筆修正していくつもりです。また、内容に何かあればご指摘いただけると嬉しいです。
特に同じ様な立場の方の参考になれば幸いです。
コードのちょっとした改修はGitHubで管理しています。
2019/08/13:2~4章の修正作業が完了しました。
2019/08/24:1章も加筆修正しました。
この目次ページをもっと見やすく方法やレイアウトって何かありませんかね??
- 2019/12/22
白本版ノートも書いております。
こちらの方が扱うレベルが高いですね。青本から入る方が無難です。
- 2020.06.08
2回目の大幅加筆修正作業を始めました。記事タイトルにChapterがないものが修正済みの記事になります。
- 2020.09.24
数式読解編の修正作業が全章終了しました!
- 2020.10.03
気分がノってたので、(実装編の修正は放置して)5章を進め始めましたー。行間がすんごく広いー、でもギリギリギリ追えるぞ!4章の更新から10か月空きましたが、その分の成長を感じてます。詰まったらコードを改修します。
- 2020.11.05
5章の更新が完了しました。実装もしたいけど4章の崩壊型ギブスサンプリングの時点で組めてるのか微妙だったので保留にします。次は白トピ本の4章に進んで、それが終われば白トピ5章と合わせてこちらの6章を進める予定です、今のところ。