からっぽのしょこ

読んだら書く!書いたら読む!同じ事は二度調べ(たく)ない

『トピックモデルによる統計的潜在意味解析』のノート:記事一覧

はじめに

 『トピックモデルによる統計的潜在意味解析』(自然言語シリーズ)の学習時のメモです。基本的な内容は、「数式の行間を読んでみた」と「プログラムを組んでみた」になります。「数式」と「プログラム」からアルゴリズムを理解する!がコンセプトです。本とあわせて読んでください。

 この記事は、1人輪読会の資料置き場のようなものです。

 なんも分からんな自分が理解できるレベルまで落として解説していますので、分かる人にはかなりくどいです。

【目次】

1. 統計的潜在意味解析とは

 特になし。

2. Latent Dirichlet Allocation

2.2 多項分布とDirichlet分布

www.anarchive-beta.com

www.anarchive-beta.com

www.anarchive-beta.com


3. 学習アルゴリズム

3.2 サンプリング近似法

 確率分布からのサンプリングに基づく近似アルゴリズムについて説明する。

【数理編】

www.anarchive-beta.com

www.anarchive-beta.com

www.anarchive-beta.com

www.anarchive-beta.com


【実装編】

www.anarchive-beta.com

www.anarchive-beta.com


3.3 変分近似法

 変分ベイズ法と呼ばれる決定論的な近似アルゴリズムにについて説明する。

【数理編】

www.anarchive-beta.com

www.anarchive-beta.com

www.anarchive-beta.com

www.anarchive-beta.com

www.anarchive-beta.com


【実装編】

www.anarchive-beta.com

www.anarchive-beta.com

www.anarchive-beta.com


3.4 逐次ベイズ学習――変分近似法の場合――

 データ1つひとつを処理する際に、逐次的に近似事後分布を更新する逐次学習について説明する。

【数理編】

www.anarchive-beta.com

www.anarchive-beta.com

www.anarchive-beta.com


【実装編】

www.anarchive-beta.com


3.5 逐次ベイズ学習――サンプリング近似法の場合――

 データに対してS個の周辺化ギブスサンプリングを並列に行うことで事後分布を近似する。

【数理編】

www.anarchive-beta.com

www.anarchive-beta.com


【実装編】

www.anarchive-beta.com


3.6 Dirichlet分布のパラメータ推定

 事前分布 p(\boldsymbol{\theta}_d | \boldsymbol{\alpha}),\ p(\boldsymbol{\phi}_k | \boldsymbol{\beta})のパラメータ \boldsymbol{\alpha},\ \boldsymbol{\beta}を点推定する方法について説明する。

www.anarchive-beta.com

www.anarchive-beta.com

www.anarchive-beta.com

 以上!

4. 潜在意味空間における回帰と識別

 いつかはやりたい・・・

参考文献

  • 佐藤一誠『トピックモデルによる統計的潜在意味解析』(自然言語処理シリーズ 8)奥村学監修,コロナ社,2015年.

おわりに

 青本版もあります。青本版の方が想定レベルを落として解説しています(私が青本から始めたので)。

www.anarchive-beta.com

白本の方が難しければ先にこちらを読んでみてください。

 基本的に自分の学習のためのノートなので合う合わないあるかと思いますが、特に自分と同じような(レベルやらの)方のお役に立てれば幸いです。また、何か間違い等ありましたらご指摘いただけると嬉しいです。

 大きな修正があれば記事を書き直しますが、簡単な変更はGitHubの方に反映されてます。

github.com

 最近GitHubを使い始めました。デスクトップアプリからポチポチしかしてませんがとても便利ですね。

 実装編書き終わりました(2020.05.23)!3つ完成させられないまま記事にしちゃいましたが、それ以外は流石に組めてると思います。
 ちょっと出来たりちょっと無理だったりでダレかけていたところ、ちょうどOsaka.Rというコミュニティによるリモート朝もく会が立ち上がりまして、それに参加しながらコツコツ作業を続けられました。
 平日の朝7:30から10:00までの都合のいい時間にチャットに参加して、それぞれもくもく作業するだけなのですが、とても捗りました。お陰様で最後まで組めました!
 という訳で興味が湧きましたら是非一緒にもくもくしましょう!詳しいイベント内容についてはこちらから。

osaka-r.connpass.com


 2019年の4月からトピックモデルの勉強を始めたので、ちょうど1年(とちょっと)続けたことになります。青本で確率分布・機械学習とは何ぞやから始めて、(ちょっと間に合わなかったけど)1年で青本と白本の両方の基礎編が読み終わりました。自分にとっては中々頑張った方ですね。
 こんなに楽しいと思えたのも久々なのでもうちょっとやってみようと思います。

 最後まで読んでいただきありがとうございます。またよろしくお願いします!