はじめに

　『トピックモデル』(MLPシリーズ)の勉強会資料のまとめです。各種モデルやアルゴリズムを「数式」と「プログラム」を用いて解説します。
　本の補助として読んでください。

　この記事では、対応トピックモデルに対する崩壊型ギブスサンプリングの数式の行間を埋めます。

【前節の内容】

www.anarchive-beta.com

【他の節の内容】

www.anarchive-beta.com

【この節の内容】

はじめに
5.2 対応トピックモデルの崩壊型ギブズサンプリングの導出：多様なハイパーパラメータの場合
参考書籍
おわりに

5.2 対応トピックモデルの崩壊型ギブズサンプリングの導出：多様なハイパーパラメータの場合

　対応トピックモデル(Corr-LDA・correspondence topic model)に対する不動点反復法(固定点反復法・fixed point iteration)を用いた崩壊型ギブスサンプリング(周辺化ギブスサンプリング・collapsed Gibbs sampling)におけるパラメータの計算式を導出する。この記事では、ハイパーパラメータが多様な値の場合を扱う。
　トピックモデル(LDA・latent Dirichlet allocation)の定義や記号については「4.1：トピックモデルの生成モデルの導出【青トピックモデルのノート】 - からっぽのしょこ」、対応トピックモデルの定義や記号については「5.2：対応トピックモデルの生成モデルの導出【青トピックモデルのノート】 - からっぽのしょこ」、ハイパーパラメータが一様な値の場合については「5.2：対応トピックモデルの崩壊型ギブズサンプリングの導出：一様なハイパーパラメータの場合【青トピックモデルのノート】 - からっぽのしょこ」を参照のこと。

パラメータの周辺化の導出

　まずは、サンプリング式や更新式の導出に用いる各変数の周辺分布の式を導出する。

結合周辺分布の設定

　パラメータ $\boldsymbol{\Theta}, \boldsymbol{\Phi}, \boldsymbol{\Psi}$ を周辺化(積分消去)したときの観測変数 $\mathbf{W}, \mathbf{X}$ と潜在変数 $\mathbf{Z}, \mathbf{Y}$ の結合分布(同時分布)を求める。

$\displaystyle p(\mathbf{W}, \mathbf{X}, \mathbf{Z}, \mathbf{Y} \mid \boldsymbol{\alpha}, \boldsymbol{\beta}, \boldsymbol{\gamma}) = \iiint p( \mathbf{W}, \mathbf{X}, \mathbf{Z}, \mathbf{Y}, \boldsymbol{\Theta}, \boldsymbol{\Phi}, \boldsymbol{\Psi} \mid \boldsymbol{\alpha}, \boldsymbol{\beta}, \boldsymbol{\gamma} ) \mathrm{d} \boldsymbol{\Theta} \mathrm{d} \boldsymbol{\Phi} \mathrm{d} \boldsymbol{\Psi}$

　対応トピックモデルの生成過程(依存関係)に従って、 $\mathbf{W}, \mathbf{X}, \mathbf{Z}, \mathbf{Y}$ の結合周辺分布を分割する。

$\displaystyle \begin{align} p(\mathbf{W}, \mathbf{X}, \mathbf{Z}, \mathbf{Y} \mid \boldsymbol{\alpha}, \boldsymbol{\beta}, \boldsymbol{\gamma}) &= p(\mathbf{Z}, \mathbf{Y} \mid \boldsymbol{\alpha}) p(\mathbf{W}, \mathbf{X} \mid \mathbf{Z}, \mathbf{Y}, \boldsymbol{\alpha}, \boldsymbol{\beta}, \boldsymbol{\gamma}) \\ &= p(\mathbf{Z} \mid \boldsymbol{\alpha}) p(\mathbf{Y} \mid \mathbf{Z}) p(\mathbf{W} \mid \mathbf{Z}, \boldsymbol{\beta}) p(\mathbf{X} \mid \mathbf{Y}, \boldsymbol{\gamma}) \tag{1} \end{align}$

　対応トピックモデルの依存関係については「対応トピックモデルの生成モデルの導出」を参照のこと。
　 $\mathbf{W}, \mathbf{X}, \mathbf{Z}, \mathbf{Y}$ に関する周辺分布または条件付き分布から得られることが分かった。

単語トピック集合の周辺分布

　 $\mathbf{W}, \mathbf{X}, \mathbf{Z}, \mathbf{Y}$ の結合周辺分布の式(1)の1つ目の項は、トピック分布のパラメータ $\boldsymbol{\Theta}$ の事前分布を用いた単語トピック集合 $\mathbf{Z}$ の周辺分布である。
　この式は、トピックモデル(4.5節)と同じ式なので、次の式になる。

$\displaystyle \begin{align} p(\mathbf{Z} \mid \boldsymbol{\alpha}) &= \int p(\mathbf{Z} \mid \boldsymbol{\Theta}) p(\boldsymbol{\Theta} \mid \boldsymbol{\alpha}) \mathrm{d} \boldsymbol{\Theta} \\ &= \prod_{d=1}^D \left[ \int \left\{ \prod_{n=1}^{N_d} p(z_{dn} \mid \boldsymbol{\theta}_d) \right\} p(\boldsymbol{\theta}_d \mid \boldsymbol{\alpha}) \mathrm{d} \boldsymbol{\theta}_d \right] \\ &= \prod_{d=1}^D \left\{ \frac{\Gamma(\sum_{k=1}^K \alpha_k)}{\prod_{k=1}^K \Gamma(\alpha_k)} \int \prod_{k=1}^K \theta_{dk}^{N_{dk} + \alpha_k-1} \mathrm{d} \boldsymbol{\theta}_d \right\} \\ &= \prod_{d=1}^D \left\{ \frac{\Gamma(\sum_{k=1}^K \alpha_k)}{\prod_{k=1}^K \Gamma(\alpha_k)} \frac{ \prod_{k=1}^K \Gamma(N_{dk} + \alpha_k) }{ \Gamma(N_d + \sum_{k=1}^K \alpha_k) } \right\} \tag{4.10}\\ &= \prod_{d=1}^D \left\{ \frac{\Gamma(\sum_{k=1}^K \alpha_k)}{\Gamma(N_d + \sum_{k=1}^K \alpha_k)} \prod_{k=1}^K \frac{\Gamma(N_{dk} + \alpha_k)}{\Gamma(\alpha_k)} \right\} \tag{4.10'} \end{align}$

　詳しくは「4.5：トピックモデルの崩壊型ギブズサンプリングの導出：多様なハイパーパラメータの場合【青トピックモデルのノート】 - からっぽのしょこ」を参照のこと。
　 $\mathbf{Z}$ の周辺分布の式が得られた。

補助情報トピック集合の条件付き分布

　 $\mathbf{W}, \mathbf{X}, \mathbf{Z}, \mathbf{Y}$ の結合周辺分布の式(1)の2つ目の項は、単語トピック集合 $\mathbf{Z}$ が与えられたときの補助情報トピック集合 $\mathbf{Y}$ の条件付き分布である。
　この式は、一様なハイパーパラメータの場合の対応トピックモデル(5.2節)と同じ式なので、次の式になる。

$\displaystyle \begin{align} p(\mathbf{Y} \mid \mathbf{Z}) &= \prod_{d=1}^D \prod_{m=1}^{M_d} p(y_{dm} \mid \mathbf{z}_d) \\ &= \prod_{d=1}^D \prod_{m=1}^{M_d} \frac{N_{dy_{dm}}}{N_d} \\ &= \prod_{d=1}^D \prod_{k=1}^K \Bigl(\frac{N_{dk}}{N_d}\Bigr)^{M_{dk}} \tag{2} \end{align}$

　詳しくは「対応トピックモデルの崩壊型ギブズサンプリングの導出：一様なハイパーパラメータの場合」を参照のこと。
　 $\mathbf{Y}$ の条件付き分布の式が得られた。

文書集合の周辺分布

　 $\mathbf{W}, \mathbf{X}, \mathbf{Z}, \mathbf{Y}$ の結合周辺分布の式(1)の3つ目の項は、単語分布のパラメータ $\boldsymbol{\Phi}$ の事前分布を用いた文書集合 $\mathbf{W}$ の周辺分布である。
　この式は、トピックモデル(4.5節)と同じ式なので、次の式になる。

$\displaystyle \begin{align} p(\mathbf{W} \mid \mathbf{Z}, \boldsymbol{\beta}) &= \int p(\mathbf{W} \mid \mathbf{Z}, \boldsymbol{\Phi}) p(\boldsymbol{\Phi} \mid \boldsymbol{\beta}) \mathrm{d} \boldsymbol{\Phi} \\ &= \int \left\{ \prod_{d=1}^D \prod_{n=1}^{N_d} p(w_{dn} \mid \boldsymbol{\phi}_{z_{dn}}) \right\} \prod_{k=1}^K p(\boldsymbol{\phi}_k \mid \boldsymbol{\beta}) \mathrm{d} \boldsymbol{\Phi} \\ &= \prod_{k=1}^K \left\{ \frac{\Gamma(\sum_{v=1}^V \beta_v)}{\prod_{v=1}^V \Gamma(\beta_v)} \int \prod_{v=1}^V \phi_{kv}^{N_{kv}+\beta_v-1} \mathrm{d} \boldsymbol{\phi}_k \right\} \\ &= \prod_{k=1}^K \left\{ \frac{\Gamma(\sum_{v=1}^V \beta_v)}{\prod_{v=1}^V \Gamma(\beta_v)} \frac{ \prod_{v=1}^V \Gamma(N_{kv} + \beta_v) }{ \Gamma(N_k + \sum_{v=1}^V \beta_v) } \right\} \tag{4.11}\\ &= \prod_{k=1}^K \left\{ \frac{\Gamma(\sum_{v=1}^V \beta_v)}{\Gamma(N_k + \sum_{v=1}^V \beta_v)} \prod_{v=1}^V \frac{\Gamma(N_{kv} + \beta_v)}{\Gamma(\beta_v)} \right\} \tag{4.11'} \end{align}$

　詳しくは「トピックモデルの崩壊型ギブズサンプリングの導出：多様なハイパーパラメータの場合」を参照のこと。
　 $\mathbf{W}$ の周辺分布の式が得られた。

補助情報集合の周辺分布

　 $\mathbf{W}, \mathbf{X}, \mathbf{Z}, \mathbf{Y}$ の結合周辺分布の式(1)の4つ目の項は、補助情報分布のパラメータ $\boldsymbol{\Psi}$ の事前分布を用いた補助情報集合 $\mathbf{X}$ の周辺分布である。
　この式は、結合トピックモデル(5.1節)と同じ式なので、次の式になる。

$\displaystyle \begin{align} p(\mathbf{X} \mid \mathbf{Y}, \boldsymbol{\gamma}) &= \int p(\mathbf{X} \mid \mathbf{Y}, \boldsymbol{\Psi}) p(\boldsymbol{\Psi} \mid \boldsymbol{\gamma}) \mathrm{d} \boldsymbol{\Psi} \\ &= \int \left\{ \prod_{d=1}^D \prod_{m=1}^{M_d} p(x_{dm} \mid \boldsymbol{\psi}_{y_{dm}}) \right\} \prod_{k=1}^K p(\boldsymbol{\psi}_k \mid \boldsymbol{\gamma}) \mathrm{d} \boldsymbol{\Psi} \\ &= \prod_{k=1}^K \left\{ \frac{\Gamma(\sum_{s=1}^S \gamma_s)}{\prod_{s=1}^S \Gamma(\gamma_s)} \int \prod_{s=1}^S \psi_{ks}^{M_{ks} + \gamma_s-1} \mathrm{d} \boldsymbol{\psi}_k \right\} \\ &= \prod_{k=1}^K \left\{ \frac{\Gamma(\sum_{s=1}^S \gamma_s)}{\prod_{s=1}^S \Gamma(\gamma_s)} \frac{ \prod_{s=1}^S \Gamma(M_{ks} + \gamma_s) }{ \Gamma(M_k + \sum_{s=1}^S \gamma_s) } \right\} \tag{3}\\ &= \prod_{k=1}^K \left\{ \frac{\Gamma(\sum_{s=1}^S \gamma_s)}{\Gamma(M_k + \sum_{s=1}^S \gamma_s)} \prod_{s=1}^S \frac{\Gamma(M_{ks} + \gamma_s)}{\Gamma(\gamma_s)} \right\} \tag{3'} \end{align}$

　詳しくは「5.1：結合トピックモデルの崩壊型ギブズサンプリングの導出：多様なハイパーパラメータの場合【青トピックモデルのノート】 - からっぽのしょこ」を参照のこと。
　 $\mathbf{X}$ の周辺分布の式が得られた。

結合周辺分布

　 $\mathbf{W}, \mathbf{X}, \mathbf{Z}, \mathbf{Y}$ の結合周辺分布の式(1)に、 $\mathbf{Z}$ の周辺分布の式(4.10')と $\mathbf{Y}$ の条件付き分布の式(2)、 $\mathbf{W}$ の周辺分布の式(4.11')、 $\mathbf{X}$ の周辺分布の式(3')を代入する。

$\displaystyle \begin{align} p(\mathbf{W}, \mathbf{X}, \mathbf{Z}, \mathbf{Y} \mid \boldsymbol{\alpha}, \boldsymbol{\beta}, \boldsymbol{\gamma}) &= \prod_{d=1}^D \left\{ \frac{\Gamma(\sum_{k=1}^K \alpha_k)}{\Gamma(N_d + \sum_{k=1}^K \alpha_k)} \prod_{k=1}^K \frac{\Gamma(N_{dk} + \alpha_k)}{\Gamma(\alpha_k)} \right\} \\ &\quad * \prod_{d=1}^D \prod_{k=1}^K \Bigl(\frac{N_{dk}}{N_d}\Bigr)^{M_{dk}} \\ &\quad * \prod_{k=1}^K \left\{ \frac{\Gamma(\sum_{v=1}^V \beta_v)}{\Gamma(N_k + \sum_{v=1}^V \beta_v)} \prod_{v=1}^V \frac{\Gamma(N_{kv} + \beta_v)}{\Gamma(\beta_v)} \right\} \\ &\quad * \prod_{k=1}^K \left\{ \frac{\Gamma(\sum_{s=1}^S \gamma_s)}{\Gamma(M_k + \sum_{s=1}^S \gamma_s)} \prod_{s=1}^S \frac{\Gamma(M_{ks} + \gamma_s)}{\Gamma(\gamma_s)} \right\} \end{align}$

　 $\mathbf{W}, \mathbf{X}, \mathbf{Z}, \mathbf{Y}$ の結合周辺分布の式が得られた。

　以上で、各変数の周辺分布の式と、結合周辺分布の式が得られた。

スポンサードリンク

サンプリング式の導出

　次は、各変数の周辺分布を用いて、各潜在変数のサンプリング確率(条件付き分布)を導出する。

　文書 $d$ の $n$ 番目の単語 $w_{dn}$ を除いた文書集合を $\mathbf{W}_{\backslash dn}$ 、単語トピック集合を $\mathbf{Z}_{\backslash dn}$ とする。全ての文書集合は $\mathbf{W} = \{w_{dn}, \mathbf{W}_{\backslash dn}\}$ 、全ての単語トピック集合は $\mathbf{Z} = \{z_{dn}, \mathbf{Z}_{\backslash dn}\}$ で表せる。
　文書 $d$ の $m$ 番目の補助情報 $x_{dm}$ を除いた補助情報集合を $\mathbf{X}_{\backslash dm}$ 、補助情報トピック集合を $\mathbf{Y}_{\backslash dm}$ とする。全ての補助情報集合は $\mathbf{X} = \{x_{dm}, \mathbf{X}_{\backslash dm}\}$ 、全ての補助情報トピック集合は $\mathbf{Y} = \{y_{dm}, \mathbf{Y}_{\backslash dm}\}$ で表せる。
　同様に、 $w_{dn}$ を除く単語数を $N_{dk \backslash dn}, N_{kv \backslash dn}, N_{k \backslash dn}$ 、 $x_{dm}$ を除く補助情報数を $M_{dk \backslash dm}, M_{ks \backslash dm}, M_{k \backslash dm}$ で表す。

単語トピックの条件付き分布の設定

　全単語の文書集合 $\mathbf{W}$ と単語 $w_{dn}$ 以外のトピック集合 $\mathbf{Z}_{\backslash dn}$ 、補助情報集合 $\mathbf{X}$ と補助情報トピック集合 $\mathbf{Y}$ が与えられた(条件とする)ときの単語 $w_{dn}$ のトピック $z_{dn}$ の条件付き分布を求める。

$\displaystyle \begin{align} p( z_{dn} = k \mid \mathbf{W}, \mathbf{X}, \mathbf{Z}_{\backslash dn}, \mathbf{Y}, \boldsymbol{\alpha}, \boldsymbol{\beta}, \boldsymbol{\gamma} ) &= \frac{ p( w_{dn}, \mathbf{W}_{\backslash dn}, \mathbf{X}, z_{dn} = k, \mathbf{Z}_{\backslash dn}, \mathbf{Y} \mid \boldsymbol{\alpha}, \boldsymbol{\beta}, \boldsymbol{\gamma} ) }{ p( w_{dn}, \mathbf{W}_{\backslash dn}, \mathbf{X}, \mathbf{Z}_{\backslash dn}, \mathbf{Y} \mid \boldsymbol{\alpha}, \boldsymbol{\beta}, \boldsymbol{\gamma} ) } \\ &\propto p( w_{dn}, \mathbf{W}_{\backslash dn}, \mathbf{X}, z_{dn} = k, \mathbf{Z}_{\backslash dn}, \mathbf{Y} \mid \boldsymbol{\alpha}, \boldsymbol{\beta}, \boldsymbol{\gamma} ) \\ &= p(z_{dn} = k \mid \mathbf{Z}_{\backslash dn}, \boldsymbol{\alpha}) p(w_{dn} \mid \mathbf{W}_{\backslash dn}, z_{dn} = k, \mathbf{Z}_{\backslash dn}, \boldsymbol{\beta}) \\ &\quad * p(\mathbf{y}_d \mid z_{dn} = k, \mathbf{Z}_{\backslash dn}, \mathbf{Y}_{\backslash d}) \\ &\quad * p(\mathbf{Z}_{\backslash dn} \mid \boldsymbol{\alpha}) p(\mathbf{W}_{\backslash dn} \mid \mathbf{Z}_{\backslash dn}, \boldsymbol{\beta}) \\ &\quad * p(\mathbf{Y}_{\backslash d} \mid \mathbf{Z}_{\backslash d}) p(\mathbf{X} \mid \mathbf{Y}, \boldsymbol{\gamma}) \\ &\propto p(z_{dn} = k \mid \mathbf{Z}_{\backslash dn}, \boldsymbol{\alpha}) p(w_{dn} \mid \mathbf{W}_{\backslash dn}, z_{dn} = k, \mathbf{Z}_{\backslash dn}, \boldsymbol{\beta}) p(\mathbf{y}_d \mid z_{dn} = k, \mathbf{Z}_{\backslash dn}, \mathbf{Y}_{\backslash d}) \tag{4} \end{align}$

途中式の途中式(クリックで展開)

1: 条件付き確率より、目的の変数 $z_{dn}$ 以外の変数 $w_{dn}, \mathbf{W}_{\backslash dn}, \mathbf{X}, \mathbf{Z}_{\backslash dn}, \mathbf{Y}$ を条件に移した式を立てる。
2: $z_{dn}$ と無関係な項を省く。
3: 変数ごとの項に分割する。

　単語 $w_{dn}$ に関する変数 $w_{dn}, z_{dn}$ と単語 $w_{dn}$ 以外に関する変数 $\mathbf{W}_{\backslash dn}, \mathbf{Z}_{\backslash dn}$ 、補助情報に関する変数 $\mathbf{X}, \mathbf{Y}$ の項を分割する。

$\displaystyle \begin{aligned} & p( w_{dn}, \mathbf{W}_{\backslash dn}, \mathbf{X}, z_{dn} = k, \mathbf{Z}_{\backslash dn}, \mathbf{Y} \mid \boldsymbol{\alpha}, \boldsymbol{\beta}, \boldsymbol{\gamma} ) \\ &= p( w_{dn}, z_{dn} = k \mid \mathbf{W}_{\backslash dn}, \mathbf{Z}_{\backslash dn}, \boldsymbol{\alpha}, \boldsymbol{\beta} ) p( \mathbf{W}_{\backslash dn}, \mathbf{X}, \mathbf{Z}_{\backslash dn}, \mathbf{Y} \mid z_{dn} = k, \boldsymbol{\alpha}, \boldsymbol{\beta}, \boldsymbol{\gamma} ) \\ &= p( w_{dn}, z_{dn} = k \mid \mathbf{W}_{\backslash dn}, \mathbf{Z}_{\backslash dn}, \boldsymbol{\alpha}, \boldsymbol{\beta} ) p( \mathbf{W}_{\backslash dn}, \mathbf{Z}_{\backslash dn} \mid \boldsymbol{\alpha}, \boldsymbol{\beta} ) p(\mathbf{X}, \mathbf{Y} \mid z_{dn} = k, \mathbf{Z}_{\backslash dn}, \boldsymbol{\gamma}) \end{aligned}$

　さらに1つ目の項の、観測変数 $w_{dn}$ と潜在変数 $z_{dn}$ の項を分割する。

$\displaystyle p( w_{dn}, z_{dn} = k \mid \mathbf{W}_{\backslash dn}, \mathbf{Z}_{\backslash dn}, \boldsymbol{\alpha}, \boldsymbol{\beta} ) = p(w_{dn} \mid \mathbf{W}_{\backslash dn}, z_{dn} = k, \mathbf{Z}_{\backslash dn}, \boldsymbol{\beta}) p(z_{dn} = k \mid \mathbf{Z}_{\backslash dn}, \boldsymbol{\alpha})$

　2つ目の項の、観測変数 $\mathbf{W}_{\backslash dn}$ と潜在変数 $\mathbf{Z}_{\backslash dn}$ の項を分割する。

$\displaystyle p(\mathbf{W}_{\backslash dn}, \mathbf{Z}_{\backslash dn} \mid \boldsymbol{\alpha}, \boldsymbol{\beta}) = p(\mathbf{W}_{\backslash dn} \mid \mathbf{Z}_{\backslash dn}, \boldsymbol{\beta}) p(\mathbf{Z}_{\backslash dn} \mid \boldsymbol{\alpha})$

　3つ目の項の、観測変数 $\mathbf{X}$ と潜在変数 $\mathbf{Y}$ の項を分割する。

$\displaystyle p(\mathbf{X}, \mathbf{Y} \mid z_{dn} = k, \mathbf{Z}_{\backslash dn}, \boldsymbol{\gamma}) = p(\mathbf{X} \mid \mathbf{Y}, \boldsymbol{\gamma}) p(\mathbf{Y} \mid z_{dn} = k, \mathbf{Z}_{\backslash dn})$

　さらに後の項を、 $z_{dn}$ に関する項と $z_{dn}$ 以外に関する項に分割する。

$\displaystyle p(\mathbf{Y} \mid z_{dn} = k, \mathbf{Z}_{\backslash dn}) = p(\mathbf{y}_d \mid z_{dn} = k, \mathbf{Z}_{\backslash dn}, \mathbf{Y}_{\backslash d}) p(\mathbf{Y}_{\backslash d} \mid \mathbf{Z}_{\backslash d})$

4: $z_{dn}$ と無関係な項を省く。

　 $z_{dn}$ に影響しない項を省いて比例関係のみに注目すると、 $w_{dn}, z_{dn}, \mathbf{y}_d$ に関する事後周辺分布から得られることが分かった。

単語トピックの事後周辺分布

　 $z_{dn}$ の条件付き分布の式(4)の1つ目の項は、単語 $w_{dn}$ 以外のトピック集合 $\mathbf{Z}_{\backslash dn}$ が与えられたときの単語 $w_{dn}$ のトピック $z_{dn}$ の周辺分布である。
　この式は、トピックモデル(4.5節)と同じ式なので、 $\mathbf{Z}$ の周辺分布の式(4.10)を用いて、次の式になる。

$\displaystyle \begin{align} p(z_{dn} = k \mid \mathbf{Z}_{\backslash dn}, \boldsymbol{\alpha}) &= \frac{ p(z_{dn} = k, \mathbf{Z}_{\backslash dn} \mid \boldsymbol{\alpha}) }{ p(\mathbf{Z}_{\backslash dn} \mid \boldsymbol{\alpha}) } \\ &= \frac{ N_{dk \backslash dn} + \alpha_k }{ N_d-1 + \sum_{k'=1}^K \alpha_{k'} } \tag{4.13} \end{align}$

　詳しくは「トピックモデルの崩壊型ギブズサンプリングの導出：多様なハイパーパラメータの場合」を参照のこと。
　 $z_{dn}$ (に割り当てられるトピック $k$ )の事後周辺分布の式が得られた。

単語の事後周辺分布

　 $z_{dn}$ の条件付き分布の式(4)の2つ目の項は、単語 $w_{dn}$ 以外の文書集合 $\mathbf{W}_{\backslash dn}$ と全単語のトピック集合 $\mathbf{Z}$ が与えられたときの単語 $w_{dn}$ の周辺分布である。
　この式は、トピックモデル(4.5節)と同じ式なので、 $\mathbf{W}$ の周辺分布の式(4.11)を用いて、次の式になる。

$\displaystyle \begin{align} p(w_{dn} \mid \mathbf{W}_{\backslash dn}, z_{dn} = k, \mathbf{Z}_{\backslash dn}, \boldsymbol{\beta}) &= \frac{ p(w_{dn}, \mathbf{W}_{\backslash dn} \mid z_{dn} = k, \mathbf{Z}_{\backslash dn}, \boldsymbol{\beta}) }{ p(\mathbf{W}_{\backslash dn} \mid \mathbf{Z}_{\backslash dn}, \boldsymbol{\beta}) } \\ &= \frac{ N_{kw_{dn} \backslash dn} + \beta_{w_{dn}} }{ N_{k \backslash dn} + \sum_{v=1}^V \beta_v } \tag{4.14} \end{align}$

　詳しくは「トピックモデルの崩壊型ギブズサンプリングの導出：多様なハイパーパラメータの場合」を参照のこと。
　 $w_{dn}$ の事後周辺分布の式が得られた。

補助情報トピック集合の事後分布

　 $z_{dn}$ の条件付き分布の式(4)の3つ目の項は、単語トピック集合 $\mathbf{Z}$ が与えられたときの文書 $d$ の補助情報トピック集合 $\mathbf{y}_d$ の条件付き分布である。
　この式は、一様なハイパーパラメータの場合の対応トピックモデル(5.2節)と同じ式なので、 $\mathbf{Y}$ の条件付き分布の式(2)の文書 $d$ に関する項を用いて、次の式になる。

$\displaystyle \begin{align} p(\mathbf{y}_d \mid z_{dn} = k, \mathbf{Z}_{\backslash dn}, \mathbf{Y}_{\backslash d}) &= \frac{ p(\mathbf{y}_d, \mathbf{Y}_{\backslash d} \mid z_{dn} = k, \mathbf{Z}_{\backslash dn}) }{ p(\mathbf{Y}_{\backslash d} \mid \mathbf{Z}_{\backslash d}) } \\ &= \Bigl( \frac{N_{dk \backslash dn} + 1}{N_{dk \backslash dn}} \Bigr)^{M_{dk}} \Bigl( \frac{N_d - 1}{N_d} \Bigr)^{M_d} \prod_{k'=1}^K \Bigl( \frac{N_{dk' \backslash dn}}{N_d - 1} \Bigr)^{M_{dk'}} \tag{5} \end{align}$

　詳しくは「対応トピックモデルの崩壊型ギブズサンプリングの導出：一様なハイパーパラメータの場合」を参照のこと。
　 $\mathbf{y}_d$ の事後分布の式が得られた。

単語トピックの条件付き分布

　 $z_{dn}$ の条件付き分布の式(4)に、 $z_{dn}$ の事後周辺分布の式(4.13)と $w_{dn}$ の事後周辺分布の式(4.14)、 $\mathbf{y}_d$ の事後分布の式(5)を代入する。

$\displaystyle \begin{align} p(z_{dn} = k \mid \mathbf{W}, \mathbf{X}, \mathbf{Z}_{\backslash dn}, \mathbf{Y}, \boldsymbol{\alpha}, \boldsymbol{\beta}, \boldsymbol{\gamma}) &\propto \frac{ N_{dk \backslash dn} + \alpha_k }{ N_d-1 + \sum_{k'=1}^K \alpha_{k'} } \frac{ N_{kw_{dn} \backslash dn} + \beta_{w_{dn}} }{ N_{k \backslash dn} + \sum_{v=1}^V \beta_v } \Bigl( \frac{N_{dk \backslash dn} + 1}{N_{dk \backslash dn}} \Bigr)^{M_{dk}} \Bigl( \frac{N_d - 1}{N_d} \Bigr)^{M_d} \prod_{k'=1}^K \Bigl( \frac{N_{dk' \backslash dn}}{N_d - 1} \Bigr)^{M_{dk'}} \\ &\propto (N_{dk \backslash dn} + \alpha_k) \frac{ N_{kw_{dn} \backslash dn} + \beta_{w_{dn}} }{ N_{k \backslash dn} + \sum_{v=1}^V \beta_v } \Bigl( \frac{N_{dk \backslash dn}+1}{N_{dk \backslash dn}} \Bigr)^{M_{dk}} \tag{5.3} \end{align}$

　 $z_{dn} = k$ に影響しない項を省いた。他のトピックについても同様に計算でき、全てのトピックに関する和で割ると正規化できる。
　 $z_{dn}$ の条件付き分布の式が得られた。

補助情報トピックの条件付き分布の設定

　単語集合 $\mathbf{W}$ と単語トピック集合 $\mathbf{Z}$ 、全ての補助情報集合 $\mathbf{X}$ と補助情報 $x_{dm}$ 以外のトピック集合 $\mathbf{Y}_{\backslash dm}$ が与えられた(条件とする)ときの補助情報 $x_{dm}$ のトピック $y_{dm}$ の条件付き分布を求める。

$\displaystyle \begin{align} p( y_{dm} = k \mid \mathbf{W}, \mathbf{X}, \mathbf{Z}, \mathbf{Y}_{\backslash dm}, \boldsymbol{\alpha}, \boldsymbol{\beta}, \boldsymbol{\gamma} ) &= \frac{ p( \mathbf{W}, x_{dm}, \mathbf{X}_{\backslash dm}, \mathbf{Z}, y_{dm} = k, \mathbf{Y}_{\backslash dm} \mid \boldsymbol{\alpha}, \boldsymbol{\beta}, \boldsymbol{\gamma} ) }{ p( \mathbf{W}, x_{dm}, \mathbf{X}_{\backslash dm}, \mathbf{Z}, \mathbf{Y}_{\backslash dm} \mid \boldsymbol{\alpha}, \boldsymbol{\beta}, \boldsymbol{\gamma} ) } \\ &\propto p(\mathbf{W}, x_{dm}, \mathbf{X}_{\backslash dm}, \mathbf{Z}, y_{dm} = k, \mathbf{Y}_{\backslash dm} \mid \boldsymbol{\alpha}, \boldsymbol{\beta}, \boldsymbol{\gamma}) \\ &= p(y_{dm} = k \mid \mathbf{Z}, \mathbf{Y}_{\backslash dm}) p(x_{dm} \mid \mathbf{X}_{\backslash dm}, y_{dm} = k, \mathbf{Y}_{\backslash dm}, \boldsymbol{\gamma}) \\ &\quad * p(\mathbf{X}_{\backslash dm} \mid \mathbf{Y}_{\backslash dm}, \boldsymbol{\gamma}) p(\mathbf{Y}_{\backslash dm} \mid \mathbf{Z}) \\ &\quad * p(\mathbf{W} \mid \mathbf{Z}, \boldsymbol{\beta}) p(\mathbf{Z} \mid \boldsymbol{\alpha}) \\ &\propto p(y_{dm} = k \mid \mathbf{Z}, \mathbf{Y}_{\backslash dm}) p(x_{dm} \mid \mathbf{X}_{\backslash dm}, y_{dm} = k, \mathbf{Y}_{\backslash dm}, \boldsymbol{\gamma}) \tag{6} \end{align}$

途中式の途中式(クリックで展開)

1: 条件付き確率より、目的の変数 $y_{dm}$ 以外の変数 $\mathbf{W}, x_{dm}, \mathbf{X}_{\backslash dm}, \mathbf{Z}, \mathbf{Y}_{\backslash dm}$ を条件に移した式を立てる。
2: $y_{dm}$ と無関係な項を省く。
3: 変数ごとの項に分割する。

　単語に関する変数 $\mathbf{W}, \mathbf{Z}$ 、補助情報 $x_{dm}$ に関する変数 $x_{dm}, y_{dm}$ と補助情報 $x_{dm}$ 以外に関する変数 $\mathbf{X}_{\backslash dm}, \mathbf{Y}_{\backslash dm}$ の項を分割する。

$\displaystyle \begin{aligned} & p( \mathbf{W}, x_{dm}, \mathbf{X}_{\backslash dm}, \mathbf{Z}, y_{dm} = k, \mathbf{Y}_{\backslash dm} \mid \boldsymbol{\alpha}, \boldsymbol{\beta}, \boldsymbol{\gamma} ) \\ &= p( x_{dm}, y_{dm} = k \mid \mathbf{X}_{\backslash dm}, \mathbf{Z}, \mathbf{Y}_{\backslash dm}, \boldsymbol{\alpha}, \boldsymbol{\gamma} ) p( \mathbf{W}, \mathbf{X}_{\backslash dm}, \mathbf{Z}, \mathbf{Y}_{\backslash dm} \mid \boldsymbol{\alpha}, \boldsymbol{\beta}, \boldsymbol{\gamma} ) \\ &= p( x_{dm}, y_{dm} = k \mid \mathbf{X}_{\backslash dm}, \mathbf{Z}, \mathbf{Y}_{\backslash dm}, \boldsymbol{\alpha}, \boldsymbol{\gamma} ) p( \mathbf{X}_{\backslash dm}, \mathbf{Y}_{\backslash dm} \mid \mathbf{Z}, \boldsymbol{\gamma} ) p(\mathbf{W}, \mathbf{Z} \mid \boldsymbol{\alpha}, \boldsymbol{\beta}) \end{aligned}$

　さらに1つ目の項の、観測変数 $x_{dm}$ と潜在変数 $y_{dm}$ の項を分割する。

$\displaystyle p( x_{dm}, y_{dm} = k \mid \mathbf{X}_{\backslash dm}, \mathbf{Z}, \mathbf{Y}_{\backslash dm}, \boldsymbol{\alpha}, \boldsymbol{\gamma} ) = p(x_{dm} \mid \mathbf{X}_{\backslash dm}, y_{dm} = k, \mathbf{Y}_{\backslash dm}, \boldsymbol{\gamma}) p(y_{dm} = k \mid \mathbf{Z}, \mathbf{Y}_{\backslash dm})$

　2つ目の項の、観測変数 $\mathbf{X}_{\backslash dm}$ と潜在変数 $\mathbf{Y}_{\backslash dm}$ の項を分割する。

$\displaystyle p(\mathbf{X}_{\backslash dm}, \mathbf{Y}_{\backslash dm} \mid \mathbf{Z}, \boldsymbol{\gamma}) = p(\mathbf{X}_{\backslash dm} \mid \mathbf{Y}_{\backslash dm}, \boldsymbol{\gamma}) p(\mathbf{Y}_{\backslash dm} \mid \mathbf{Z})$

　3つ目の項の、観測変数 $\mathbf{W}$ と潜在変数 $\mathbf{Z}$ の項を分割する。

$\displaystyle p(\mathbf{W}, \mathbf{Z} \mid \boldsymbol{\alpha}, \boldsymbol{\beta}) = p(\mathbf{W} \mid \mathbf{Z}, \boldsymbol{\beta}) p(\mathbf{Z} \mid \boldsymbol{\alpha})$

4: $y_{dm}$ と無関係な項を省く。

　 $y_{dm}$ に影響しない項を省いて比例関係のみに注目すると、 $x_{dm}, y_{dm}$ に関する事後周辺分布から得られることが分かった。

補助情報トピックの事後分布

　 $y_{dm}$ の条件付き分布の式(6)の前の項は、補助情報 $x_{dm}$ 以外のトピック集合 $\mathbf{Z}, \mathbf{Y}_{\backslash dm}$ が与えられたときの補助情報 $x_{dm}$ のトピック $y_{dm}$ の条件付き分布である。
　この式は、一様なハイパーパラメータの場合の対応トピックモデル(5.2節)と同じ式なので、 $\mathbf{Y}$ の条件付き分布の式(2)を用いて、次の式になる。

$\displaystyle \begin{align} p(y_{dm} = k \mid \mathbf{Z}, \mathbf{Y}_{\backslash dm}) &= \frac{ p(y_{dm} = k, \mathbf{Y}_{\backslash dm} \mid \mathbf{Z}) }{ p(\mathbf{Y}_{\backslash dm} \mid \mathbf{Z}) } \\ &= \frac{N_{dk}}{N_d} \tag{7} \end{align}$

　詳しくは「対応トピックモデルの崩壊型ギブズサンプリングの導出：一様なハイパーパラメータの場合」を参照のこと。
　 $y_{dm}$ (に割り当てられるトピック $k$ )の事後分布の式が得られた。

補助情報の事後周辺分布

　 $y_{dm}$ の条件付き分布の式(6)の後の項は、補助情報 $x_{dm}$ 以外の補助情報集合 $\mathbf{X}_{\backslash dm}$ と全補助情報のトピック集合 $\mathbf{Y}$ が与えられたときの補助情報 $x_{dm}$ の周辺分布である。
　この式は、結合トピックモデル(5.1節)と同じ式なので、 $\mathbf{X}$ の周辺分布の式(3)を用いて、次の式になる。

$\displaystyle \begin{align} p(x_{dm} \mid \mathbf{X}_{\backslash dm}, y_{dm} = k, \mathbf{Y}_{\backslash dm}, \boldsymbol{\gamma}) &= \frac{ p(x_{dm}, \mathbf{X}_{\backslash dm} \mid y_{dm} = k, \mathbf{Y}_{\backslash dm}, \boldsymbol{\gamma}) }{ p(\mathbf{X}_{\backslash dm} \mid \mathbf{Y}_{\backslash dm}, \boldsymbol{\gamma}) } \\ &= \frac{ M_{kx_{dm} \backslash dm} + \gamma_{x_{dm}} }{ M_{k \backslash dm} + \sum_{s=1}^S \gamma_s } \tag{8} \end{align}$

　詳しくは「結合トピックモデルの崩壊型ギブズサンプリングの導出：多様なハイパーパラメータの場合」を参照のこと。
　 $x_{dm}$ の事後周辺分布の式が得られた。

補助情報トピックの条件付き分布

　 $y_{dm}$ の条件付き分布の式(6)に、 $y_{dm}$ の事後分布の式(7)と $x_{dm}$ の事後周辺分布の式(8)を代入する。

$\displaystyle \begin{align} p(y_{dm} = k \mid \mathbf{W}, \mathbf{X}, \mathbf{Z}, \mathbf{Y}_{\backslash dm}, \boldsymbol{\alpha}, \boldsymbol{\beta}, \boldsymbol{\gamma}) &\propto \frac{N_{dk}}{N_d} \frac{ M_{kx_{dm} \backslash dm} + \gamma_{x_{dm}} }{ M_{k \backslash dm} + \sum_{s=1}^S \gamma_s } \\ &\propto N_{dk} \frac{ M_{kx_{dm} \backslash dm} + \gamma_{x_{dm}} }{ M_{k \backslash dm} + \sum_{s=1}^S \gamma_s } \tag{5.4} \end{align}$

　 $y_{dm} = k$ に影響しない項を省いた。他のトピックについても同様に計算でき、全てのトピックに関する和で割ると正規化できる。
　 $y_{dm}$ の条件付き分布の式が得られた。

　以上で、各潜在変数のトピックのサンプリング式が得られた。

スポンサードリンク

ハイパーパラメータの更新式の導出

　続いて、サンプリングしたトピック集合を用いて、全変数の結合周辺分布を最大化するハイパーパラメータを推定する。しかし、解析的に求められない。そこで、不動点反復法により結合周辺分布の下限を繰り返し更新することで最大化を行うための各分布のハイパーパラメータの更新式を導出する。

周辺結合分布の下限の設定

　 $\mathbf{Z}$ の周辺分布の式(4.10')を

$\displaystyle \begin{align} p(\mathbf{Z} \mid \boldsymbol{\alpha}) &= \prod_{d=1}^D \left\{ \frac{\Gamma(\sum_{k=1}^K \alpha_k)}{\Gamma(N_d + \sum_{k=1}^K \alpha_k)} \prod_{k=1}^K \frac{\Gamma(N_{dk} + \alpha_k)}{\Gamma(\alpha_k)} \right\} \tag{4.10'}\\ &\geq \prod_{d=1}^D \left[ \frac{\Gamma(\sum_{k=1}^K \alpha_k)}{\Gamma(N_d + \sum_{k=1}^K \alpha_k)} \exp \Bigl( (\alpha_k - \alpha_k^{\mathrm{new}}) b_{\alpha} \Bigr) \prod_{k=1}^K \left\{ \frac{\Gamma(N_{dk} + \alpha_k)}{\Gamma(\alpha_k)} \alpha_k^{-a_{\alpha}} (\alpha_k^{\mathrm{new}})^{a_{\alpha}} \right\} \right] \end{align}$

と変形し、また $\mathbf{W}$ の周辺分布の式(4.11')を

$\displaystyle \begin{align} p(\mathbf{W} \mid \mathbf{Z}, \boldsymbol{\beta}) &= \prod_{k=1}^K \left\{ \frac{\Gamma(\sum_{v=1}^V \beta_v)}{\Gamma(N_k + \sum_{v=1}^V \beta_v)} \prod_{v=1}^V \frac{\Gamma(N_{kv} + \beta_v)}{\Gamma(\beta_v)} \right\} \tag{4.11'}\\ &\geq \prod_{k=1}^K \left[ \frac{\Gamma(\sum_{v=1}^V \beta_v)}{\Gamma(N_k + \sum_{v=1}^V \beta_v)} \exp \Bigl( (\beta_v - \beta_v^{\mathrm{new}}) b_{\beta} \Bigr) \prod_{v=1}^V \left\{ \frac{\Gamma(N_{kv} + \beta_v)}{\Gamma(\beta_v)} \beta_v^{-a_{\beta}} (\beta_v^{\mathrm{new}})^{a_{\beta}} \right\} \right] \end{align}$

と変形し、 $\mathbf{X}$ の周辺分布の式(3')を

$\displaystyle \begin{align} p(\mathbf{X} \mid \mathbf{Y}, \boldsymbol{\gamma}) &= \prod_{k=1}^K \left\{ \frac{\Gamma(\sum_{s=1}^S \gamma_s)}{\Gamma(M_k + \sum_{s=1}^S \gamma_s)} \prod_{s=1}^S \frac{\Gamma(M_{ks} + \gamma_s)}{\Gamma(\gamma_s)} \right\} \tag{3'}\\ &\geq \prod_{k=1}^K \left[ \frac{\Gamma(\sum_{s=1}^S \gamma_s)}{\Gamma(M_k + \sum_{s=1}^S \gamma_s)} \exp \Bigl( (\gamma_s - \gamma_s^{\mathrm{new}}) b_{\gamma} \Bigr) \prod_{s=1}^S \left\{ \frac{\Gamma(M_{ks} + \gamma_s)}{\Gamma(\gamma_s)} \gamma_s^{-a_{\gamma}} (\gamma_s^{\mathrm{new}})^{a_{\gamma}} \right\} \right] \end{align}$

と変形して、 $\mathbf{W}, \mathbf{X}, \mathbf{Z}, \mathbf{Y}$ の結合周辺分布の式(1)を置き換え下限 $G$ とおく。

$\displaystyle \begin{aligned} p(\mathbf{W}, \mathbf{X}, \mathbf{Z}, \mathbf{Y} \mid \boldsymbol{\alpha}, \boldsymbol{\beta}, \boldsymbol{\gamma}) &\geq \prod_{d=1}^D \Biggl[ \frac{\Gamma(\sum_{k=1}^K \alpha_k)}{\Gamma(N_d + \sum_{k=1}^K \alpha_k)} \exp \Bigl( (\alpha_k - \alpha_k^{\mathrm{new}}) b_{\alpha} \Bigr) \Biggr. \\ &\qquad \qquad * \Biggl. \prod_{k=1}^K \left\{ \frac{\Gamma(N_{dk} + \alpha_k)}{\Gamma(\alpha_k)} \alpha_k^{-a_{\alpha}} (\alpha_k^{\mathrm{new}})^{a_{\alpha}} \right\} \Biggr] \\ &\quad * \prod_{d=1}^D \prod_{k=1}^K \Bigl(\frac{N_{dk}}{N_d}\Bigr)^{M_{dk}} \\ &\quad * \prod_{k=1}^K \Biggl[ \frac{\Gamma(\sum_{v=1}^V \beta_v)}{\Gamma(N_k + \sum_{v=1}^V \beta_v)} \exp \Bigl( (\beta_v - \beta_v^{\mathrm{new}}) b_{\beta} \Bigr) \Biggr. \\ &\qquad \qquad * \Biggl. \prod_{v=1}^V \left\{ \frac{\Gamma(N_{kv} + \beta_v)}{\Gamma(\beta_v)} \beta_v^{-a_{\beta}} (\beta_v^{\mathrm{new}})^{a_{\beta}} \right\} \Biggr] \\ &\quad * \prod_{k=1}^K \Biggl[ \frac{\Gamma(\sum_{s=1}^S \gamma_s)}{\Gamma(M_k + \sum_{s=1}^S \gamma_s)} \exp \Bigl( (\gamma_s - \gamma_s^{\mathrm{new}}) b_{\gamma} \Bigr) \Biggr. \\ &\qquad \qquad * \Biggl. \prod_{s=1}^S \left\{ \frac{\Gamma(M_{ks} + \gamma_s)}{\Gamma(\gamma_s)} \gamma_s^{-a_{\gamma}} (\gamma_s^{\mathrm{new}})^{a_{\gamma}} \right\} \Biggr] \equiv G \end{aligned}$

　また、次のようにおいた。

$\displaystyle \begin{aligned} a_{\alpha} &= \Bigl( \Psi(N_{dk} + \alpha_k) - \Psi(\alpha_k) \Bigr) \alpha_k \\ b_{\alpha} &= \Psi \Bigl(N_d + \sum_{k=1}^K \alpha_k \Bigr) - \Psi \Bigl(\sum_{k=1}^K \alpha_k \Bigr) \\ a_{\beta} &= \Bigl( \Psi(N_{kv} + \beta_v) - \Psi(\beta_v) \Bigr) \beta_v \\ b_{\beta} &= \Psi \Bigl( N_k + \sum_{v=1}^V \beta_v \Bigr) - \Psi \Bigl( \sum_{v=1}^V \beta_v \Bigr) \\ a_{\gamma} &= \Bigl( \Psi(M_{ks} + \gamma_s) - \Psi(\gamma_s) \Bigr) \gamma_s \\ b_{\gamma} &= \Psi \Bigl( M_k + \sum_{s=1}^S \gamma_s \Bigr) - \Psi \Bigl( \sum_{s=1}^S \gamma_s \Bigr) \end{aligned} \tag{9}$

途中式の途中式(クリックで展開)

1: 対数ガンマとディガンマ関数の不等式を用いて、項を置き換える。

　 $\hat{x} \geq 0$ に対して、 $x \gt 0$ 、 $n \geq 0$ のとき、次の関係が成り立つ。

$\displaystyle \begin{aligned} \frac{\Gamma(x)}{\Gamma(n + x)} &\geq \frac{\Gamma(\hat{x})}{\Gamma(n + \hat{x})} \exp \Bigl( (\hat{x} - x) b \Bigr) \\ b &= \Psi(n + \hat{x}) - \Psi(\hat{x}) \end{aligned}$

　また、 $\hat{x} \geq 0$ に対して、 $n \geq 1$ のとき、次の関係が成り立つ。

$\displaystyle \begin{aligned} \frac{\Gamma(n + x)}{\Gamma(x)} &\geq \frac{\Gamma(n + \hat{x})}{\Gamma(\hat{x})} \hat{x}^{-a} x^a \\ a &= \Bigl( \Psi(n + \hat{x}) - \Psi(\hat{x}) \Bigr) \hat{x} \end{aligned}$

　現在の値(中心) $\hat{x}$ を $\alpha_k, \beta_v, \gamma_s$ 、更新後の値(変数) $x$ を $\alpha_k^{\mathrm{new}}, \beta_v^{\mathrm{new}}, \gamma_s^{\mathrm{new}}$ と対応させて下限の式に変形する。

　現在の値を $\alpha_k, \beta_v, \gamma_s$ 、更新後の値を $\alpha_k^{\mathrm{new}}, \beta_v^{\mathrm{new}}, \gamma_s^{\mathrm{new}}$ とする( $a, b$ の添字の $\alpha, \beta, \gamma$ は識別用で計算上の意味はない)。周辺尤度に関して $\alpha_k, \beta_v, \gamma_s$ の周りでテイラー展開(近似)して下限として用いる。
　下限への変形については「対数ガンマ関数とディガンマ関数の不等式の導出【青トピックモデルのノート】 - からっぽのしょこ」を参照のこと。

　 $\mathbf{W}, \mathbf{X}, \mathbf{Z}, \mathbf{Y}$ の結合周辺分布の下限 $G$ の対数をとり対数下限 $F$ とおく。

$\displaystyle \begin{aligned} F &= \log G \\ &= \sum_{d=1}^D \Biggl[ \log \frac{\Gamma(\sum_{k=1}^K \alpha_k)}{\Gamma(N_d + \sum_{k=1}^K \alpha_k)} + (\alpha_k - \alpha_k^{\mathrm{new}}) b_{\alpha} \Biggr. \\ &\qquad \qquad \Biggl. + \sum_{k=1}^K \left\{ \log \frac{\Gamma(N_{dk} + \alpha_k)}{\Gamma(\alpha_k)} - a_{\alpha} \log \alpha_k + a_{\alpha} \log \alpha_k^{\mathrm{new}} \right\} \Biggr] \\ &\quad + \sum_{d=1}^D \sum_{k=1}^K M_{dk} \log \frac{N_{dk}}{N_d} \\ &\quad + \sum_{k=1}^K \Biggl[ \log \frac{\Gamma(\sum_{v=1}^V \beta_v)}{\Gamma(N_k + \sum_{v=1}^V \beta_v)} + (\beta_v - \beta_v^{\mathrm{new}}) b_{\beta} \Biggr. \\ &\qquad \qquad \Biggl. + \sum_{v=1}^V \left\{ \log \frac{\Gamma(N_{kv} + \beta_v)}{\Gamma(\beta_v)} - a_{\beta} \log \beta_v + a_{\beta} \log \beta_v^{\mathrm{new}} \right\} \Biggr] \\ &\quad + \sum_{k=1}^K \Biggl[ \log \frac{\Gamma(\sum_{s=1}^S \gamma_s)}{\Gamma(M_k + \sum_{s=1}^S \gamma_s)} + (\gamma_s - \gamma_s^{\mathrm{new}}) b_{\gamma} \Biggr. \\ &\qquad \qquad \Biggl. + \sum_{s=1}^S \left\{ \log \frac{\Gamma(M_{ks} + \gamma_s)}{\Gamma(\gamma_s)} - a_{\gamma} \log \gamma_s + a_{\gamma} \log \gamma_s^{\mathrm{new}} \right\} \Biggr] \end{aligned}$

　 $\mathbf{W}, \mathbf{X}, \mathbf{Z}, \mathbf{Y}$ の結合周辺分布の対数下限の式が得られた。

トピック分布のハイパーパラメータ

　 $\mathbf{W}, \mathbf{X}, \mathbf{Z}, \mathbf{Y}$ の結合周辺分布の対数下限 $F$ から $\alpha_k^{\mathrm{new}}$ に関する項を取り出し(無関係な項を定数 $\mathrm{const.}$ にまとめ)関数 $F(\alpha_k^{\mathrm{new}})$ とおく。

$\displaystyle F(\alpha_k^{\mathrm{new}}) = \sum_{d=1}^D \Bigl\{ - b_{\alpha} \alpha_k^{\mathrm{new}} + a_{\alpha} \log \alpha_k^{\mathrm{new}} \Bigr\} + \mathrm{const.}$

　この式は、トピックモデル(4.5節)と同じ式なので、関数 $F(\alpha_k^{\mathrm{new}})$ を $\alpha_k^{\mathrm{new}}$ に関して微分して解くと、次の式になる。

$\displaystyle \alpha_k^{\mathrm{new}} = \alpha_k \frac{ \sum_{d=1}^D \Psi(N_{dk} + \alpha_k) - D \Psi(\alpha_k) }{ \sum_{d=1}^D \Psi(N_d + \sum_{k'=1}^K \alpha_{k'}) - D \Psi(\sum_{k'=1}^K \alpha_{k'}) } \tag{4.16}$

　 $i$ 回目の更新において、 $\alpha_k$ を更新前の値( $i-1$ 回目の更新値) $\alpha_k^{(i-1)}$ 、 $\alpha_k^{\mathrm{new}}$ を更新後の値( $i$ 回目の更新値) $\alpha_k^{(i)}$ とする。また、初期値は $\alpha_k^{(0)}$ とする。

$\displaystyle \alpha_k^{(i)} = \alpha_k^{(i-1)} \frac{ \sum_{d=1}^D \Psi \Bigl( N_{dk}^{(i-1)} + \alpha_k^{(i-1)} \Bigr) - D \Psi \Bigl( \alpha_k^{(i-1)} \Bigr) }{ \sum_{d=1}^D \Psi \Bigl( N_d^{(i-1)} + \sum_{k'=1}^K \alpha_{k'}^{(i-1)} \Bigr) - D \Psi \Bigl( \sum_{k'=1}^K \alpha_{k'}^{(i-1)} \Bigr) }$

　詳しくは「トピックモデルの崩壊型ギブズサンプリングの導出：多様なハイパーパラメータの場合」を参照のこと。
　 $\alpha_k$ の更新式が得られた。

単語分布のハイパーパラメータ

　 $\mathbf{W}, \mathbf{X}, \mathbf{Z}, \mathbf{Y}$ の結合周辺分布の対数下限 $F$ から $\beta_v^{\mathrm{new}}$ に関する項を取り出し関数 $F(\beta_v^{\mathrm{new}})$ とおく。

$\displaystyle F(\beta_v^{\mathrm{new}}) = \sum_{k=1}^K \Bigl\{ - b_{\beta} \beta_v^{\mathrm{new}} + a_{\beta} \log \beta_v^{\mathrm{new}} \Bigr\} + \mathrm{const.}$

　この式は、トピックモデル(4.5節)と同じ式なので、関数 $F(\beta_v^{\mathrm{new}})$ を $\beta_v^{\mathrm{new}}$ に関して微分して解くと、次の式になる。

$\displaystyle \beta_v^{\mathrm{new}} = \beta_v \frac{ \sum_{k=1}^K \Psi(N_{kv} + \beta_v) - K \Psi(\beta_v) }{ \sum_{k=1}^K \Psi(N_k + \sum_{v'=1}^V \beta_{v'}) - K \Psi(\sum_{v'=1}^V \beta_{v'}) } \tag{4.17}$

　 $i$ 回目の更新において、 $\beta_v$ を更新前の値( $i-1$ 回目の更新値) $\beta_v^{(i-1)}$ 、 $\beta_v^{\mathrm{new}}$ を更新後の値( $i$ 回目の更新値) $\beta_v^{(i)}$ とする。また、初期値は $\beta_v^{(0)}$ とする。

$\displaystyle \beta_v^{(i)} = \beta_v^{(i-1)} \frac{ \sum_{k=1}^K \Psi \Bigl( N_{kv}^{(i-1)} + \beta_v^{(i-1)} \Bigr) - K \Psi \Bigl( \beta_v^{(i-1)} \Bigr) }{ \sum_{k=1}^K \Psi \Bigl( N_k^{(i-1)} + \sum_{v'=1}^V \beta_{v'}^{(i-1)} \Bigr) - K \Psi \Bigl( \sum_{v'=1}^V \beta_{v'}^{(i-1)} \Bigr) }$

　詳しくは「トピックモデルの崩壊型ギブズサンプリングの導出：多様なハイパーパラメータの場合」を参照のこと。
　 $\beta_v$ の更新式が得られた。

補助情報分布のハイパーパラメータ

　 $\mathbf{W}, \mathbf{X}, \mathbf{Z}, \mathbf{Y}$ の結合周辺分布の対数下限 $F$ から $\gamma_s^{\mathrm{new}}$ に関する項を取り出し関数 $F(\gamma_s^{\mathrm{new}})$ とおく。

$\displaystyle F(\gamma_s^{\mathrm{new}}) = \sum_{k=1}^K \Bigl\{ - b_{\gamma} \gamma_s^{\mathrm{new}} + a_{\gamma} \log \gamma_s^{\mathrm{new}} \Bigr\} + \mathrm{const.}$

　この式は、結合トピックモデル(5.1節)と同じ式なので、関数 $F(\gamma_s^{\mathrm{new}})$ を $\gamma_s^{\mathrm{new}}$ に関して微分して解くと、次の式になる。

$\displaystyle \gamma_s^{\mathrm{new}} = \gamma_s \frac{ \sum_{k=1}^K \Psi(M_{ks} + \gamma_s) - K \Psi(\gamma_s) }{ \sum_{k=1}^K \Psi(M_k + \sum_{s'=1}^S \gamma_{s'}) - K \Psi(\sum_{s'=1}^S \gamma_{s'}) }$

　 $i$ 回目の更新において、 $\gamma_s$ を更新前の値( $i-1$ 回目の更新値) $\gamma_s^{(i-1)}$ 、 $\gamma_s^{\mathrm{new}}$ を更新後の値( $i$ 回目の更新値) $\gamma_s^{(i)}$ とする。また、初期値は $\gamma_s^{(0)}$ とする。

$\displaystyle \gamma_s^{(i)} = \gamma_s^{(i-1)} \frac{ \sum_{k=1}^K \Psi \Bigl( M_{ks}^{(i-1)} + \gamma_s^{(i-1)} \Bigr) - K \Psi \Bigl( \gamma_s^{(i-1)} \Bigr) }{ \sum_{k=1}^K \Psi \Bigl( M_k^{(i-1)} + \sum_{s'=1}^S \gamma_{s'}^{(i-1)} \Bigr) - K \Psi \Bigl( \sum_{s'=1}^S \gamma_{s'}^{(i-1)} \Bigr) }$

　詳しくは「結合トピックモデルの崩壊型ギブズサンプリングの導出：多様なハイパーパラメータの場合」を参照のこと。
　 $\gamma_s$ の更新式が得られた。

　以上で、各分布のハイパーパラメータの更新式が得られた。

スポンサードリンク

事後予測分布の導出

　最後は、各変数の周辺分布を用いて、未知(新規)の各変数の事後予測分布を導出する。

　既存の文書 $d$ において新たに生成される( $N_d+1$ 番目の)単語(の語彙)を $w_d^{*}$ 、トピックを $z_d^{*}$ 、新たに生成される( $M_d+1$ 番目の)補助情報(の種類)を $x_d^{*}$ 、トピックを $y_d^{*}$ で表す。

トピックの事後予測分布の設定

　単語トピック集合 $\mathbf{Z}$ が与えられたときの文書 $d$ の未知の単語 $w_d^{*}$ のトピック $z_d^{*}$ の予測分布を求める。

$\displaystyle p(z_d^{*} = k \mid \mathbf{Z}, \boldsymbol{\alpha}) = \int p(z_d^{*} = k \mid \boldsymbol{\theta}_d) p(\boldsymbol{\theta}_d \mid \mathbf{Z}, \boldsymbol{\alpha}) \mathrm{d} \boldsymbol{\theta}_d$

　 $\boldsymbol{\theta}_d$ の事後分布を用いた $z_d^{*}$ の周辺分布である。

トピックの事後予測分布

　この式は、トピックモデル(4.5節)と同じ式なので、 $\mathbf{Z}$ の周辺分布の式(2)を用いて、次の式になる。

$\displaystyle \begin{aligned} p(z_d^{*} = k \mid \mathbf{Z}, \boldsymbol{\alpha}) &= \frac{ p(z_d^{*} = k, \mathbf{Z} \mid \boldsymbol{\alpha}) }{ p(\mathbf{Z} \mid \boldsymbol{\alpha}) } \\ &= \frac{ N_{dk} + \alpha_k }{ N_d + \sum_{k'=1}^K \alpha_{k'} } \equiv \hat{\theta}_{dk} \end{aligned}$

　詳しくは「トピックモデルの崩壊型ギブズサンプリングの導出：多様なハイパーパラメータの場合」を参照のこと。
　 $z_d^{*}$ (に割り当てられるトピック $k$ )の事後予測分布の式が得られた。この式を $\hat{\theta}_{dk}$ とおく。

トピック分布のパラメータ

　他のトピックについても同様に求められるので、 $z_d^{*}$ の事後予測分布のパラメータは、次の $K$ 次元ベクトルになる。

$\displaystyle \begin{aligned} \hat{\boldsymbol{\theta}}_d &= (\hat{\theta}_{d1}, \hat{\theta}_{d2}, \cdots, \hat{\theta}_{dK}) \\ &= \left( \frac{N_{d1} + \alpha_1}{N_d + \sum_{k=1}^K \alpha_k}, \frac{N_{d2} + \alpha_2}{N_d + \sum_{k=1}^K \alpha_k}, \cdots, \frac{N_{dK} + \alpha_K}{N_d + \sum_{k=1}^K \alpha_k} \right) \end{aligned}$

　サンプリングデータ $\mathbf{Z}$ から推定したトピック分布のパラメータ $\boldsymbol{\theta}_d$ の推定値と言える。

単語の事後予測分布の設定

　文書集合 $\mathbf{W}$ と単語トピック集合 $\mathbf{Z}$ 、未知の単語のトピック $z_d^{*}$ が与えられたときの未知の単語(の語彙) $w_d^{*}$ の予測分布を求める。

$\displaystyle p(w_d^{*} = v \mid \mathbf{W}, z_d^{*} = k, \mathbf{Z}, \boldsymbol{\beta}) = \int p(w_d^{*} = v \mid z_d^{*} = k, \boldsymbol{\phi}_k) p(\boldsymbol{\phi}_k \mid \mathbf{W}, \mathbf{Z}, \boldsymbol{\beta}) \mathrm{d} \boldsymbol{\phi}_k$

　 $\boldsymbol{\phi}_k$ の事後分布を用いた単語 $w_d^{*}$ の周辺分布である。

単語の事後予測分布の設定

　この式は、トピックモデル(4.5節)と同じ式なので、 $\mathbf{W}$ の周辺分布の式(4.11)を用いて、次の式になる。

$\displaystyle \begin{aligned} p(w_d^{*} = v \mid \mathbf{W}, z_d^{*} = k, \mathbf{Z}, \boldsymbol{\beta}) &= \frac{ p(w_d^{*} = v, \mathbf{W} \mid z_d^{*} = k, \mathbf{Z}, \boldsymbol{\beta}) }{ p(\mathbf{W} \mid \mathbf{Z}, \boldsymbol{\beta}) } \\ &= \frac{ N_{kv} + \beta_v }{ N_k + \sum_{v'=1}^V \beta_{v'} } \equiv \hat{\phi}_{kv} \end{aligned}$

　詳しくは「トピックモデルの崩壊型ギブズサンプリングの導出：多様なハイパーパラメータの場合」を参照のこと。
　 $w_d^{*}$ (に割り当てられる語彙 $v$ )の事後予測分布の式が得られた。この式を $\hat{\phi}_{kv}$ とおく。

単語分布のパラメータ

　他の語彙についても同様に求められるので、 $w_d^{*}$ の事後予測分布のパラメータは、次の $V$ 次元ベクトルになる。

$\displaystyle \begin{aligned} \hat{\boldsymbol{\phi}}_k &= (\hat{\phi}_{k1}, \hat{\phi}_{k2}, \cdots, \hat{\phi}_{kV}) \\ &= \left( \frac{N_{k1} + \beta_1}{N_k + \sum_{v=1}^V \beta_v}, \frac{N_{k2} + \beta_2}{N_k + \sum_{v=1}^V \beta_v}, \cdots, \frac{N_{kV} + \beta_V}{N_k + \sum_{v=1}^V \beta_v} \right) \end{aligned}$

　観測・サンプリングデータ $\mathbf{W}, \mathbf{Z}$ から推定した単語分布のパラメータ $\boldsymbol{\phi}_k$ の推定値と言える。

補助情報の事後予測分布の設定

　補助情報集合 $\mathbf{X}$ と補助情報トピック集合 $\mathbf{Y}$ 、未知の補助情報のトピック $y_d^{*}$ が与えられたときの未知の補助情報(の種類) $x_d^{*}$ の予測分布を求める。

$\displaystyle p(x_d^{*} = s \mid \mathbf{X}, y_d^{*} = k, \mathbf{Y}, \boldsymbol{\gamma}) = \int p(x_d^{*} = s \mid y_d^{*} = k, \boldsymbol{\psi}_k) p(\boldsymbol{\psi}_k \mid \mathbf{X}, \mathbf{Y}, \boldsymbol{\gamma}) \mathrm{d} \boldsymbol{\psi}_k$

　 $\boldsymbol{\psi}_k$ の事後分布を用いた補助情報 $x_d^{*}$ の周辺分布である。

補助情報の事後予測分布

　この式は、結合トピックモデル(5.1節)と同じ式なので、 $\mathbf{X}$ の周辺分布の式(3)を用いて、次の式になる。

$\displaystyle \begin{aligned} p(x_d^{*} = s \mid \mathbf{X}, y_d^{*} = k, \mathbf{Y}, \boldsymbol{\gamma}) &= \frac{ p(x_d^{*} = s, \mathbf{X} \mid y_d^{*} = k, \mathbf{Y}, \boldsymbol{\gamma}) }{ p(\mathbf{X} \mid \mathbf{Y}, \boldsymbol{\gamma}) } \\ &= \frac{ M_{ks} + \gamma_s }{ M_k + \sum_{s'=1}^S \gamma_{s'} } \equiv \hat{\psi}_{ks} \end{aligned}$

　詳しくは「結合トピックモデルの崩壊型ギブズサンプリングの導出：多様なハイパーパラメータの場合」を参照のこと。
　 $x_d^{*}$ (に割り当てられる種類 $s$ )の事後予測分布の式が得られた。この式を $\hat{\psi}_{ks}$ とおく。

補助情報分布のパラメータ

　他の種類についても同様に求められるので、 $x_d^{*}$ の事後予測分布のパラメータは、次の $S$ 次元ベクトルになる。

$\displaystyle \begin{aligned} \hat{\boldsymbol{\psi}}_k &= (\hat{\psi}_{k1}, \hat{\psi}_{k2}, \cdots, \hat{\psi}_{kS}) \\ &= \left( \frac{M_{k1} + \gamma_1}{M_k + \sum_{s=1}^S \gamma_s}, \frac{M_{k2} + \gamma_2}{M_k + \sum_{s=1}^S \gamma_s}, \cdots, \frac{M_{kS} + \gamma_S}{M_k + \sum_{s=1}^S \gamma_s} \right) \end{aligned}$

　観測・サンプリングデータ $\mathbf{X}, \mathbf{Y}$ から推定した補助情報分布のパラメータ $\boldsymbol{\psi}_k$ の推定値と言える。

　以上で、各変数の事後予測分布の式と、各分布のパラメータの推定値の計算式が得られた。

　この節では、対応トピックモデルを扱った。次の節では、ノイズあり対応トピックモデルを扱う。

参考書籍

トピックモデル (機械学習プロフェッショナルシリーズ)

作者:岩田具治
講談社

Amazon

おわりに

　3つの記事からのコピペでほとんどの内容が済んでしまった。ベイズ推論はレゴブロックを組み合わせるように構成できるというような説明を読んだ遠い記憶があるのですが、それを実感した気がします。
　結合トピックモデルよりも一段階モデルが複雑になったと思うんですが、更新式がシンプルになるのがあいかわらず直感に反していて興味深いです。

　この記事が投稿される頃には、ばっしょーことばってん少女隊のライブに初参加して楽しんでいるはずです♪

　私にとって初めてのスタンディングのライブハウスだとか色々不安はありますが、瀬田さくらさんのラストツアーを目一杯楽しんできまーす。

2024.10.08.追記：ただでさえ楽しいライブを過去一の位置で観られてで最高の体験を全身で浴びてきました！ドにわかだけど参加して本当に良かったです。ここにハマっても大丈夫という半年ほど前の直感は正しかった。(記事が間に合わず冒頭だけ投稿して後ほど完成させたのを白状しておきます。)

2025.05.22：加筆修正しました。

　5章までのギブスサンプリング数式編の記事の加筆修正が済んだので、全体の構成を統一するために再度調整しました。

【次節の内容】

数式読解編

　ノイズあり対応トピックモデルの生成モデルを数式で確認します。

からっぽのしょこ

読んだら書く！書いたら読む！同じ事は二度調べ(たく)ない

5.2：対応トピックモデルの崩壊型ギブズサンプリングの導出：多様なハイパーパラメータの場合【青トピックモデルのノート】

はじめに

5.2 対応トピックモデルの崩壊型ギブズサンプリングの導出：多様なハイパーパラメータの場合

パラメータの周辺化の導出

結合周辺分布の設定

単語トピック集合の周辺分布

補助情報トピック集合の条件付き分布

文書集合の周辺分布

補助情報集合の周辺分布

結合周辺分布

サンプリング式の導出

単語トピックの条件付き分布の設定

単語トピックの事後周辺分布

単語の事後周辺分布

補助情報トピック集合の事後分布

単語トピックの条件付き分布

補助情報トピックの条件付き分布の設定

補助情報トピックの事後分布

補助情報の事後周辺分布

補助情報トピックの条件付き分布

ハイパーパラメータの更新式の導出

周辺結合分布の下限の設定

トピック分布のハイパーパラメータ

単語分布のハイパーパラメータ

補助情報分布のハイパーパラメータ

事後予測分布の導出

トピックの事後予測分布の設定

トピックの事後予測分布

トピック分布のパラメータ

単語の事後予測分布の設定

単語の事後予測分布の設定

単語分布のパラメータ

補助情報の事後予測分布の設定

補助情報の事後予測分布

補助情報分布のパラメータ

参考書籍

おわりに