はじめに
『トピックモデル』(MLPシリーズ)の勉強会資料のまとめです。各種モデルやアルゴリズムを「数式」と「プログラム」を用いて解説します。
本の補助として読んでください。
この記事では、ノイズあり対応トピックモデルに対する崩壊型ギブスサンプリングの数式の行間を埋めます。
【前節の内容】
【他の節の内容】
【この節の内容】
5.3 ノイズあり対応トピックモデルの崩壊型ギブズサンプリング:一様なハイパーパラメータの場合
ノイズあり対応トピックモデル(noisy correspondence topic model)に対する不動点反復法(固定点反復法・fixed point iteration)を用いた崩壊型ギブスサンプリング(周辺化ギブスサンプリング・collapsed Gibbs sampling)におけるパラメータの計算式を導出する。この記事では、ハイパーパラメータが一様な値の場合を扱う。
トピックモデル(LDA・latent Dirichlet allocation)の定義や記号については「トピックモデルの生成モデルの導出」、ノイズあり対応トピックモデルについては「生成モデルの導出」、ハイパーパラメータが多様な値の場合については「多様なハイパーパラメータの場合」を参照のこと。
パラメータの周辺化の導出
まずは、サンプリング式や更新式の導出に用いる文書集合・補助情報集合とトピック集合の周辺分布の式を導出する。
ここでは、トピック分布・単語分布・補助情報分布のハイパーパラメータ をそれぞれ一様な値 として、 次元ベクトルをスカラで表記する。
結合周辺分布の設定
パラメータ を周辺化(積分消去)したときの文書集合 、補助情報集合 、トピック集合 、関係性集合 の結合分布(同時分布)を求める。
対応トピックモデルの生成過程(依存関係)に従って、 の結合分布を分割する。
に関する周辺分布から得られることが分かった。
単語トピック集合の周辺分布
の結合分布の式(1)の1つ目の項は、トピック分布のパラメータ の事前分布 を用いた単語トピック集合 の周辺分布である。
この式はトピックモデル(4.5節)と同じ式なので、次の式になる。
詳しくは「トピックモデルの崩壊型ギブズサンプリングの導出:一様なハイパーパラメータの場合」を参照のこと。
の周辺分布の式が得られた。
補助情報トピック集合の条件付き分布
の結合分布の式(1)の2つ目の項は、単語トピック集合 が得られたときの補助情報トピック集合 の条件付き分布である。
この式は対応トピックモデル(5.2節)と同じ式なので、次の式になる。
詳しくは「対応トピックモデルの崩壊型ギブズサンプリングの導出:一様なハイパーパラメータの場合」を参照のこと。
の条件付き分布の式が得られた。
文書集合の周辺分布
の結合分布の式(1)の3つ目の項は、単語分布のパラメータ の事前分布 を用いた文書集合 の周辺分布である。
この式はトピックモデル(4.5節)と同じ式なので、次の式になる。
詳しくは「トピックモデルの崩壊型ギブズサンプリングの導出:一様なハイパーパラメータの場合」を参照のこと。
の周辺分布の式が得られた。
補助情報集合の周辺分布
の結合分布の式(1)の4つ目の項は、補助情報分布のパラメータ の事前分布 を用いた補助情報集合 の周辺分布である。
この式について、パラメータを明示して変形する。
途中式の途中式(クリックで展開)
- 1: 周辺化された を明示する。
- 2: 観測変数 とパラメータ の項を分割する。
- 3: 文書・トピックごとの積に分解する。
- 4: 補助情報ごとの積に分解する。 の添字( で1つのインデックス)について、 のとき 、 のとき となる。
さらに、確率分布を具体的な式に置き換えて、式を整理する。
途中式の途中式(クリックで展開)
- 1: 各補助情報の種類(内容) はカテゴリ分布、各トピックの補助情報分布のパラメータ はディリクレ分布を仮定しているので、それぞれ定義式に置き換える。
- 2: 一様なハイパーパラメータなので、正規化項は 、 となる。
- 2: 個の補助情報に対応するパラメータ について、各補助情報に割り当てられた文書内容との関係性 とトピック番号 、種類番号 を用いてトピックと種類ごとにまとめると、 個の に置き換えられる。
- 3: と無関係な正規化項を の外に出し、 の項をまとめる。
- 4: ディリクレ分布の正規化項(1.2.4項)より、積分全体を正規化項の逆数の形に置き換える。
- 5: トピックごとの補助情報数の関係より、 である。
- 6: 不動点反復法を行うために、 に戻し、分母を入れ替えて の項をそれぞれまとめる。
の周辺分布の式が得られた。
関係性集合の周辺分布
の結合分布の式(1)の5つ目の項は、補助情報分布のパラメータ の事前分布 を用いた補助情報集合 の周辺分布である。
同様に、パラメータを明示して変形する。
途中式の途中式(クリックで展開)
- 1: 周辺化された を明示する。
- 2: 観測変数 とパラメータ の項を分割する。
- 3: 文書ごとの積に分解する。
- 4: 補助情報ごとの積に分解する。
さらに、確率分布を具体的な式に置き換えて、式を整理する。
途中式の途中式(クリックで展開)
- 1: 各補助情報の文書内容との関係性(単語トピックとの依存関係) はカテゴリ分布、関係性分布のパラメータ はベータ分布を仮定しているので、それぞれ定義式に置き換える。
- 2: 個の補助情報に対応するパラメータ について、各補助情報に割り当てられた文書内容との関係性 を用いて関係性ごとにまとめると、 個の と 個の に置き換えられる。
- 3: と無関係な正規化項を の外に出し、 の項をまとめる。
- 4: ベータ分布の正規化項(1.2.3項)より、積分全体を正規化項の逆数の形に置き換える。
- 5: 補助情報数の関係より、 である。
- 6: 不動点反復法を行うために分母を入れ替えて の項をそれぞれまとめる。
の周辺分布の式が得られた。
結合周辺分布
の結合分布の式(1)に、 の周辺分布の式(4.10')、 の周辺分布の式(2)、 の周辺分布の式(4.11')、 の周辺分布の式(3')、 の周辺分布の式(4')を代入する。
の結合分布が得られた。
以上で、文書集合・補助情報集合とトピック集合、関係性集合の周辺分布の式、結合周辺分布の式が得られた。
まだ執筆中です。今日中には仕上げられると思うのでMVを聴いてお待ちください…
参考書籍
おわりに
5章ではこのモデルが一番複雑で山場ですね。
2024年10月18日は、つばきファクトリーの福田真琳さんの20歳のお誕生日です。
また、Juice=Juiceの入江里咲さんの19歳のお誕生日です。
お二人それぞれからしか得られない栄養素に日々癒されています。
【次節の内容】
- 数式読解編
ハイパーパラメータが多様な場合のノイズあり対応トピックモデルに対する周辺化ギブズサンプリングを数式で確認します。
https://www.anarchive-beta.com/entry/2024/10/19/180000www.anarchive-beta.com