からっぽのしょこ

読んだら書く!書いたら読む!読書読読書読書♪同じ事は二度調べ(たく)ない

3.3.4-5:LDAの変分ベイズ法(1)【白トピックモデルのノート】

はじめに

 『トピックモデルによる統計的潜在意味解析』の学習時のメモです。基本的な内容は、数式の行間を読んで埋めたものになります。本と併せて読んでいただければと思います。

 この記事では、主に3.3.5節の近似事後分布の形を仮定しないLDAの変分ベイズ法について書いています。

 数学よく解らない自分が理解できるレベルまで落として数式を書き下していますので、分かる人にはかなりくどいです。

【前節の内容】

www.anarchive-beta.com

【他の節一覧】

https://www.anarchive-beta.com/entry/2019/12/22/120000www.anarchive-beta.com

【この節の内容】

3.3.4 LDAの変分ベイズ法(準備)

・Dirichlet分布の期待値の導出

 Dirichlet分布の期待値計算を導出する。

$$ \begin{align} \int p(\boldsymbol{\theta} | \boldsymbol{\alpha}) d\boldsymbol{\theta} &= 1 \\ \int \frac{ \Gamma(\sum_{k=1}^K \alpha_k) }{ \prod_{k=1}^K \Gamma(\alpha_k) } \prod_{k=1}^K \theta_k^{\alpha_k-1} d\boldsymbol{\theta} &= 1 \\ \int \prod_{k=1}^K \theta_k^{\alpha_k-1} d\boldsymbol{\theta} &= \frac{ \prod_{k=1}^K \Gamma(\alpha_k) }{ \Gamma(\sum_{k=1}^K \alpha_k) } \tag{3.75}\\ \int \exp \left[ \log \left( \prod_{k=1}^K \theta_k^{\alpha_k-1} \right) \right] d\boldsymbol{\theta} &= \frac{ \prod_{k=1}^K \Gamma(\alpha_k) }{ \Gamma(\sum_{k=1}^K \alpha_k) } \\ \int \exp \left[ \sum_{k=1}^K (\alpha_k - 1) \log \theta_k \right] d\boldsymbol{\theta} &= \frac{ \prod_{k=1}^K \Gamma(\alpha_k) }{ \Gamma(\sum_{k=1}^K \alpha_k) } \tag{3.76}\\ \log \left( \int \exp \left[ \sum_{k=1}^K (\alpha_k - 1) \log \theta_k \right] d\boldsymbol{\theta} \right) &= \log \left( \frac{ \prod_{k=1}^K \Gamma(\alpha_k) }{ \Gamma(\sum_{k=1}^K \alpha_k) } \right) \\ &= \sum_{k=1}^K \log \Gamma(\alpha_k) - \log \Gamma \left( \sum_{k=1}^K \alpha_k \right) \tag{3.77} \end{align} $$

 この式の両辺を$\alpha_k$で微分する。

$$ \begin{align} \frac{ 1 }{ \int \exp \left[ \sum_{k'=1}^K (\alpha_{k'} - 1) \log \theta_{k'} \right] d\boldsymbol{\theta} } \int \exp \left[ \sum_{k'=1}^K (\alpha_{k'} - 1) \log \theta_{k'} \right] d\boldsymbol{\theta} (\log \theta_k) &= \frac{ d\log \Gamma(\alpha_k) }{ d\alpha_k } - \frac{ d\log \Gamma \left( \sum_{k=1}^K \alpha_k \right) }{ d\alpha_k } \\ \int (\log \theta_k) \frac{ \Gamma(\sum_{k'=1}^K \alpha_{k'}) }{ \prod_{k'=1}^K \Gamma(\alpha_{k'}) } \prod_{k'=1}^K \theta_{k'}^{\alpha_{k'}-1} d\boldsymbol{\theta} &= \Psi(\alpha_k) - \Psi \left( \sum_{k=1}^K \alpha_k \right) \\ \int p(\boldsymbol{\theta} | \boldsymbol{\alpha}) \log \theta_k d\boldsymbol{\theta} &= \Psi(\alpha_k) - \Psi \left( \sum_{k=1}^K \alpha_k \right) \\ \mathbb{E}_{p(\boldsymbol{\theta} | \boldsymbol{\alpha})} [ \log \theta_k ] &= \Psi(\alpha_k) - \Psi \left( \sum_{k=1}^K \alpha_k \right) \tag{3.79} \end{align} $$

【途中式の途中式】

  1. 左辺は合成関数の微分より
    • $f' = (\log A)' = \frac{1}{A}$
    • $A' = (\exp[B])' = \exp[B]$
    • $B' = (\sum_{k=1}^K \alpha_k \log \theta_k - \theta_k)' = \log \theta_k$
    • 左辺の前の項を式(3.76)より正規化項の逆数に置き換える。
    • 左辺の後の項の$\exp[\log()]$を外す。
    • 右辺をプサイ関数にそれぞれ置き換える。
  2. Dirichlet分布の式を$p()$の表記に戻す。
  3. 期待値の計算式になっているため$\mathbb{E}[]$の表記に置き換える。


 続いて、この期待値計算を用いて、Dirichlet分布のKL情報量を求めていく。

・Dirichlet分布のKL情報量の導出

$$ \begin{align} \int p(\boldsymbol{\theta} | \boldsymbol{\xi}) \log p(\boldsymbol{\theta} | \boldsymbol{\alpha}) d\boldsymbol{\theta} &= \int p(\boldsymbol{\theta} | \boldsymbol{\xi}) \log \frac{ \Gamma(\sum_{k=1}^K \alpha_k) }{ \prod_{k=1}^K \Gamma(\alpha_k) } \prod_{k=1}^K \theta_k^{\alpha_k-1} d\boldsymbol{\theta} \\ &= \int p(\boldsymbol{\theta} | \boldsymbol{\xi}) \left( \log \frac{ \Gamma(\sum_{k=1}^K \alpha_k) }{ \prod_{k=1}^K \Gamma(\alpha_k) } + \log \prod_{k=1}^K \theta_k^{\alpha_k-1} \right) d\boldsymbol{\theta} \\ &= \int p(\boldsymbol{\theta} | \boldsymbol{\xi}) d\boldsymbol{\theta} \log \frac{ \Gamma(\sum_{k=1}^K \alpha_k) }{ \prod_{k=1}^K \Gamma(\alpha_k) } + \int p(\boldsymbol{\theta} | \boldsymbol{\xi}) \log \prod_{k=1}^K \theta_k^{\alpha_k-1} d\boldsymbol{\theta} \\ &= \log \frac{ \Gamma(\sum_{k=1}^K \alpha_k) }{ \prod_{k=1}^K \Gamma(\alpha_k) } + \sum_{k=1}^K (\alpha_k - 1) \int p(\boldsymbol{\theta} | \boldsymbol{\xi}) \log \theta_k d\boldsymbol{\theta} \\ &= \log \frac{ \Gamma(\sum_{k=1}^K \alpha_k) }{ \prod_{k=1}^K \Gamma(\alpha_k) } + \sum_{k=1}^K (\alpha_k - 1) \mathbb{E}_{p(\boldsymbol{\theta} | \boldsymbol{\xi})}[ \log \theta_k ] \tag{3.80} \end{align} $$

 これを用いて、KL情報量は

$$ \begin{align} {\rm KL}[ p(\boldsymbol{\theta} | \boldsymbol{\xi}) \parallel p(\boldsymbol{\theta} | \boldsymbol{\alpha}) ] &= \int p(\boldsymbol{\theta} | \boldsymbol{\xi}) \log \frac{ p(\boldsymbol{\theta} | \boldsymbol{\xi}) }{ p(\boldsymbol{\theta} | \boldsymbol{\alpha}) } d\boldsymbol{\theta} \\ &= \int p(\boldsymbol{\theta} | \boldsymbol{\xi}) \Bigl( \log p(\boldsymbol{\theta} | \boldsymbol{\xi}) - \log p(\boldsymbol{\theta} | \boldsymbol{\alpha}) \Bigr) d\boldsymbol{\theta} \\ &= \int p(\boldsymbol{\theta} | \boldsymbol{\xi}) \log p(\boldsymbol{\theta} | \boldsymbol{\xi}) d\boldsymbol{\theta} - \int p(\boldsymbol{\theta} | \boldsymbol{\xi}) \log p(\boldsymbol{\theta} | \boldsymbol{\alpha}) d\boldsymbol{\theta} \\ &= \log \frac{ \Gamma(\sum_{k=1}^K \xi_k) }{ \prod_{k=1}^K \Gamma(\xi_k) } + \sum_{k=1}^K (\xi_k - 1) \mathbb{E}_{p(\boldsymbol{\theta} | \boldsymbol{\xi})}[ \log \theta_k ]\\ &\qquad - \log \frac{ \Gamma(\sum_{k=1}^K \alpha_k) }{ \prod_{k=1}^K \Gamma(\alpha_k) } - \sum_{k=1}^K (\alpha_k - 1) \mathbb{E}_{p(\boldsymbol{\theta} | \boldsymbol{\xi})}[ \log \theta_k ] \\ &= \log \frac{ \Gamma(\sum_{k=1}^K \xi_k) }{ \prod_{k=1}^K \Gamma(\xi_k) } - \log \frac{ \Gamma(\sum_{k=1}^K \alpha_k) }{ \prod_{k=1}^K \Gamma(\alpha_k) } + \sum_{k=1}^K \{ (\xi_k - 1) - (\alpha_k - 1) \} \mathbb{E}_{p(\boldsymbol{\theta} | \boldsymbol{\xi})}[ \log \theta_k ] \\ &= \log \frac{ \Gamma(\sum_{k=1}^K \xi_k) }{ \prod_{k=1}^K \Gamma(\xi_k) } - \log \frac{ \Gamma(\sum_{k=1}^K \alpha_k) }{ \prod_{k=1}^K \Gamma(\alpha_k) } + \sum_{k=1}^K (\xi_k - \alpha_k) \mathbb{E}_{p(\boldsymbol{\theta} | \boldsymbol{\xi})}[ \log \theta_k ] \tag{3.81} \end{align} $$

となる。

3.3.5 LDAの変分ベイズ法(1)

 LDAの変分ベイズ法の導出を行う。この節では、あらかじめ近似事後分布の形を仮定せずに導出する。

・変分下限の導出

 $\boldsymbol{z}, \boldsymbol{\phi}, \boldsymbol{\theta}$について周辺化(積分消去)して対数をとった対数周辺尤度$\log p(\boldsymbol{w} | \boldsymbol{\alpha}, \boldsymbol{\beta})$に対して、イエンセンの不等式を用いて変分下限を求める。

$$ \begin{align} \log p(\boldsymbol{w} | \boldsymbol{\alpha}, \boldsymbol{\beta}) &= \log \int \sum_{\boldsymbol{z}} p(\boldsymbol{w}, \boldsymbol{z}, \boldsymbol{\phi}, \boldsymbol{\theta} | \boldsymbol{\alpha}, \boldsymbol{\beta}) d\boldsymbol{\phi} d\boldsymbol{\theta} \\ &= \log \int \sum_{\boldsymbol{z}} q(\boldsymbol{z}, \boldsymbol{\theta}, \boldsymbol{\phi}) \frac{ p(\boldsymbol{w}, \boldsymbol{z}, \boldsymbol{\phi}, \boldsymbol{\theta} | \boldsymbol{\alpha}, \boldsymbol{\beta}) }{ q(\boldsymbol{z}, \boldsymbol{\theta}, \boldsymbol{\phi}) } d\boldsymbol{\phi} d\boldsymbol{\theta} \\ &\geq \int \sum_{\boldsymbol{z}} q(\boldsymbol{z}, \boldsymbol{\theta}, \boldsymbol{\phi}) \log \frac{ p(\boldsymbol{w}, \boldsymbol{z}, \boldsymbol{\phi}, \boldsymbol{\theta} | \boldsymbol{\alpha}, \boldsymbol{\beta}) }{ q(\boldsymbol{z}, \boldsymbol{\theta}, \boldsymbol{\phi}) } d\boldsymbol{\phi} d\boldsymbol{\theta} \equiv F[q(\boldsymbol{z}, \boldsymbol{\theta}, \boldsymbol{\phi})] \tag{3.82} \end{align} $$

 ここで、近似事後分布は

$$ \begin{align} q(\boldsymbol{z}, \boldsymbol{\theta}, \boldsymbol{\phi}) &= q(\boldsymbol{z}) q(\boldsymbol{\theta}) q(\boldsymbol{\phi}) \\ &= \left[ \prod_{d=1}^M \prod_{i=1}^{n_d} q(z_{d,i}) \right] \left[ \prod_{d=1}^M q(\boldsymbol{\theta}_d) \right] \left[ \prod_{k=1}^K q(\boldsymbol{\phi}_k) \right] \tag{3.83} \end{align} $$

このように因子分解できると仮定する。
 また、結合分布は生成過程より、ベイズの定理を用いて

$$ \begin{align} p(\boldsymbol{w}, \boldsymbol{z}, \boldsymbol{\phi}, \boldsymbol{\theta} | \boldsymbol{\alpha}, \boldsymbol{\beta}) &= p(\boldsymbol{w}, \boldsymbol{z} | \boldsymbol{\phi}, \boldsymbol{\theta}) p(\boldsymbol{\phi} | \boldsymbol{\beta}) p(\boldsymbol{\theta} | \boldsymbol{\alpha}) \\ &= p(\boldsymbol{w} | \boldsymbol{z}, \boldsymbol{\phi}) p(\boldsymbol{z} | \boldsymbol{\theta}) p(\boldsymbol{\phi} | \boldsymbol{\beta}) p(\boldsymbol{\theta} | \boldsymbol{\alpha}) \\ &= \left[ \prod_{d=1}^M \prod_{i=1}^{n_d} p(w_{d,i} | \boldsymbol{\phi}_{z_{d,i}}) p(z_{d,i} | \boldsymbol{\theta}_d) \right] \left[ \prod_{k=1}^K p(\boldsymbol{\phi}_k | \boldsymbol{\beta}) \right] \left[ \prod_{d=1}^M p(\boldsymbol{\theta}_d | \boldsymbol{\alpha}) \right] \tag{3.84} \end{align} $$

となる。
 従って、式(3.83)と式(3.84)より、変分下限$F[q(\boldsymbol{z}, \boldsymbol{\theta}, \boldsymbol{\phi})]$は

$$ \begin{align} F[q(\boldsymbol{z}, \boldsymbol{\theta}, \boldsymbol{\phi})] &= \int \sum_{\boldsymbol{z}} q(\boldsymbol{z}, \boldsymbol{\theta}, \boldsymbol{\phi}) \log \frac{ p(\boldsymbol{w}, \boldsymbol{z}, \boldsymbol{\phi}, \boldsymbol{\theta} | \boldsymbol{\alpha}, \boldsymbol{\beta}) }{ q(\boldsymbol{z}, \boldsymbol{\theta}, \boldsymbol{\phi}) } d\boldsymbol{\phi} d\boldsymbol{\theta} \tag{3.82}\\ &= \int \sum_{\boldsymbol{z}} q(\boldsymbol{z}) q(\boldsymbol{\theta}) q(\boldsymbol{\phi}) \log \frac{ p(\boldsymbol{w} | \boldsymbol{z}, \boldsymbol{\phi}) p(\boldsymbol{z} | \boldsymbol{\theta}) p(\boldsymbol{\phi} | \boldsymbol{\beta}) p(\boldsymbol{\theta} | \boldsymbol{\alpha}) }{ q(\boldsymbol{z}) q(\boldsymbol{\theta}) q(\boldsymbol{\phi}) } d\boldsymbol{\phi} d\boldsymbol{\theta} \\ &= \int \sum_{\boldsymbol{z}} q(\boldsymbol{z}) q(\boldsymbol{\theta}) q(\boldsymbol{\phi}) \left( \log p(\boldsymbol{w} | \boldsymbol{z}, \boldsymbol{\phi}) p(\boldsymbol{z} | \boldsymbol{\theta}) - \log q(\boldsymbol{z}) + \log \frac{ p(\boldsymbol{\theta} | \boldsymbol{\alpha}) }{ q(\boldsymbol{\theta}) } + \log \frac{ p(\boldsymbol{\phi} | \boldsymbol{\beta}) }{ q(\boldsymbol{\phi}) } \right) d\boldsymbol{\phi} d\boldsymbol{\theta} \\ &= \int \sum_{\boldsymbol{z}} q(\boldsymbol{z}) q(\boldsymbol{\theta}) q(\boldsymbol{\phi}) \log p(\boldsymbol{w} | \boldsymbol{z}, \boldsymbol{\phi}) p(\boldsymbol{z} | \boldsymbol{\theta}) d\boldsymbol{\phi} d\boldsymbol{\theta} - \int q(\boldsymbol{\theta}) q(\boldsymbol{\phi}) d\boldsymbol{\phi} d\boldsymbol{\theta} \sum_{\boldsymbol{z}} q(\boldsymbol{z}) \log q(\boldsymbol{z}) \\ &\qquad + \int \sum_{\boldsymbol{z}} q(\boldsymbol{z}) q(\boldsymbol{\phi}) d\boldsymbol{\phi} \int q(\boldsymbol{\theta}) \log \frac{ p(\boldsymbol{\theta} | \boldsymbol{\alpha}) }{ q(\boldsymbol{\theta}) } d\boldsymbol{\theta} + \int \sum_{\boldsymbol{z}} q(\boldsymbol{z}) q(\boldsymbol{\theta}) d\boldsymbol{\theta} \int q(\boldsymbol{\phi}) \log \frac{ p(\boldsymbol{\phi} | \boldsymbol{\beta}) }{ q(\boldsymbol{\phi}) } d\boldsymbol{\phi} \\ &= \int \sum_{\boldsymbol{z}} q(\boldsymbol{z}) q(\boldsymbol{\theta}) q(\boldsymbol{\phi}) \log p(\boldsymbol{w} | \boldsymbol{z}, \boldsymbol{\phi}) p(\boldsymbol{z} | \boldsymbol{\theta}) d\boldsymbol{\phi} d\boldsymbol{\theta} - \sum_{\boldsymbol{z}} q(\boldsymbol{z}) \log q(\boldsymbol{z}) \\ &\qquad + \int q(\boldsymbol{\theta}) \log \frac{ p(\boldsymbol{\theta} | \boldsymbol{\alpha}) }{ q(\boldsymbol{\theta}) } d\boldsymbol{\theta} + \int q(\boldsymbol{\phi}) \log \frac{ p(\boldsymbol{\phi} | \boldsymbol{\beta}) }{ q(\boldsymbol{\phi}) } d\boldsymbol{\phi} \end{align} $$

【途中式の途中式】

  1. 式(3.83)、式(3.84)より項を分解する。
  2. $\log \frac{A B}{C} = \log A + \log B - \log C$の変形を行う。
  3. 括弧を展開する。
  4. $\sum_{\boldsymbol{z}} q(\boldsymbol{z}) = \int q(\boldsymbol{\theta}) d\boldsymbol{\theta} = \int q(\boldsymbol{\phi}) d\boldsymbol{\phi} = 1$であるため消える。


となる。ここから更に、KL情報量の形にしていく。

$$ \begin{align} F[q(\boldsymbol{z}, \boldsymbol{\theta}, \boldsymbol{\phi})] &= \int \sum_{\boldsymbol{z}} q(\boldsymbol{z}) q(\boldsymbol{\theta}) q(\boldsymbol{\phi}) \log p(\boldsymbol{w} | \boldsymbol{z}, \boldsymbol{\phi}) p(\boldsymbol{z} | \boldsymbol{\theta}) d\boldsymbol{\phi} d\boldsymbol{\theta} - \sum_{\boldsymbol{z}} q(\boldsymbol{z}) \log q(\boldsymbol{z}) \\ &\qquad + \int q(\boldsymbol{\theta}) \log \frac{ p(\boldsymbol{\theta} | \boldsymbol{\alpha}) }{ q(\boldsymbol{\theta}) } d\boldsymbol{\theta} + \int q(\boldsymbol{\phi}) \log \frac{ p(\boldsymbol{\phi} | \boldsymbol{\beta}) }{ q(\boldsymbol{\phi}) } d\boldsymbol{\phi} \\ &= \int \sum_{\boldsymbol{z}} q(\boldsymbol{z}) q(\boldsymbol{\theta}) q(\boldsymbol{\phi}) \log p(\boldsymbol{w} | \boldsymbol{z}, \boldsymbol{\phi}) p(\boldsymbol{z} | \boldsymbol{\theta}) d\boldsymbol{\phi} d\boldsymbol{\theta} - \sum_{\boldsymbol{z}} q(\boldsymbol{z}) \log q(\boldsymbol{z}) \\ &\qquad + \int q(\boldsymbol{\theta}) \Bigl( \log p(\boldsymbol{\theta} | \boldsymbol{\alpha}) - \log q(\boldsymbol{\theta}) \Bigr) d\boldsymbol{\theta} + \int q(\boldsymbol{\phi}) \Bigl( \log p(\boldsymbol{\phi} | \boldsymbol{\beta}) - \log q(\boldsymbol{\phi}) \Bigr) d\boldsymbol{\phi} \\ &= \int \sum_{d=1}^M \sum_{i=1}^{n_d} \sum_{z_{d,i}} q(z_{d,i}) q(\boldsymbol{\theta}_d) q(\boldsymbol{\phi}) \log p(w_{d,i} | z_{d,i}, \boldsymbol{\phi}) p(z_{d,i} | \boldsymbol{\theta}_d) d\boldsymbol{\phi} d\boldsymbol{\theta}_d - \sum_{d=1}^M \sum_{i=1}^{n_d} \sum_{k=1}^K q(z_{d,i} = k) \log q(z_{d,i} = k) \\ &\qquad - \sum_{d=1}^M \int q(\boldsymbol{\theta}_d) \Bigl( - \log p(\boldsymbol{\theta}_d | \boldsymbol{\alpha}) + \log q(\boldsymbol{\theta}_d) \Bigr) d\boldsymbol{\theta}_d - \sum_{k=1}^K \int q(\boldsymbol{\phi}_k) \Bigl( - \log p(\boldsymbol{\phi}_k | \boldsymbol{\beta}) + \log q(\boldsymbol{\phi}_k) \Bigr) d\boldsymbol{\phi}_k \\ &= \int \sum_{d=1}^M \sum_{i=1}^{n_d} \sum_{z_{d,i}} q(z_{d,i}) q(\boldsymbol{\theta}_d) q(\boldsymbol{\phi}) \log p(w_{d,i} | z_{d,i}, \boldsymbol{\phi}) p(z_{d,i} | \boldsymbol{\theta}_d) d\boldsymbol{\phi} d\boldsymbol{\theta}_d - \sum_{d=1}^M \sum_{i=1}^{n_d} \sum_{k=1}^K q(z_{d,i} = k) \log q(z_{d,i} = k) \\ &\qquad - \sum_{d=1}^M \int q(\boldsymbol{\theta}_d) \log \frac{ q(\boldsymbol{\theta}_d) }{ p(\boldsymbol{\theta}_d | \boldsymbol{\alpha}) } d\boldsymbol{\theta}_d - \sum_{k=1}^K \int q(\boldsymbol{\phi}_k) \log \frac{ q(\boldsymbol{\phi}_k) }{ p(\boldsymbol{\phi}_k | \boldsymbol{\beta}) } d\boldsymbol{\phi}_k \\ &= \int \sum_{d=1}^M \sum_{i=1}^{n_d} \sum_{z_{d,i}} q(z_{d,i}) q(\boldsymbol{\theta}_d) q(\boldsymbol{\phi}) \log p(w_{d,i} | z_{d,i}, \boldsymbol{\phi}) p(z_{d,i} | \boldsymbol{\theta}_d) d\boldsymbol{\phi} d\boldsymbol{\theta}_d - \sum_{d=1}^M \sum_{i=1}^{n_d} \sum_{k=1}^K q(z_{d,i} = k) \log q(z_{d,i} = k) \\ &\qquad - \sum_{d=1}^M {\rm KL}[ q(\boldsymbol{\theta}_d) \parallel p(\boldsymbol{\theta}_d | \boldsymbol{\alpha}) ] - \sum_{k=1}^K {\rm KL}[ q(\boldsymbol{\phi}_k) \parallel p(\boldsymbol{\phi}_k | \boldsymbol{\beta}) ] \tag{3.85} \end{align} $$

【途中式の途中式】

  1. $\log \frac{A}{B} = \log A - \log B$の変形を行う。
    • 前の2つの因子は、式(3.84)より項を更に分解する。
    • 後の2つの因子は、分母分子を入れ替えるために括弧から$-1$を外に出す。
  2. $- \log A + \log B = \log \frac{B}{A}$の変形を行う。
  3. KL情報量に置き換える。


 以上で変分下限が求まった。次からは、この変分下限を最大にする近似事後分布を求めていく。

・トピック分布の近似事後分布の導出

 変分下限$F[q(\boldsymbol{z}_{1:n}, \boldsymbol{\phi}, \boldsymbol{\pi})]$から、$q(\boldsymbol{\theta}_d)$に関係する項のみを取り出して$\tilde{F}[q(\boldsymbol{\theta}_d)]$とおく。

$$ \tilde{F}[q(\boldsymbol{\theta}_d)] = \int q(\boldsymbol{\theta}_d) \sum_{\boldsymbol{z}} q(\boldsymbol{z}) \sum_{i=1}^{n_d} \log p(z_{d,i} | \boldsymbol{\theta}_d) d\boldsymbol{\theta}_d - \int q(\boldsymbol{\theta}_d) \log \frac{ q(\boldsymbol{\theta}_d) }{ p(\boldsymbol{\theta}_d | \boldsymbol{\alpha}) } d\boldsymbol{\theta} \tag{3.86} $$

$q(\boldsymbol{\theta}_d)$に関係する項を取り出したので、$d = 1, 2, \cdots, d - 1, d + 1, \cdots, D$については含まれない。(頭の$q(\boldsymbol{z})$はそのままなのは何故??)
 $\tilde{F}[q(\boldsymbol{\theta}_d)] = \int f(\boldsymbol{\theta}_d, q(\boldsymbol{\theta}_d))d\boldsymbol{\theta}_d$とすると、$f(\boldsymbol{\theta}_d, q(\boldsymbol{\theta}_d))$は

$$ \begin{aligned} f(\boldsymbol{\theta}_d, q(\boldsymbol{\theta}_d)) &= q(\boldsymbol{\theta}_d) \sum_{\boldsymbol{z}} q(\boldsymbol{z}) \sum_{i=1}^{n_d} \log p(z_{d,i} | \boldsymbol{\theta}_d) - q(\boldsymbol{\theta}_d) \log \frac{ q(\boldsymbol{\theta}_d) }{ p(\boldsymbol{\theta}_d | \boldsymbol{\alpha}) } \\ &= q(\boldsymbol{\theta}_d) \sum_{\boldsymbol{z}} q(\boldsymbol{z}) \sum_{i=1}^{n_d} \log p(z_{d,i} | \boldsymbol{\theta}_d) - q(\boldsymbol{\theta}_d) \Bigl( \log q(\boldsymbol{\theta}_d) - \log p(\boldsymbol{\theta}_d | \boldsymbol{\alpha}) \Bigr) \\ &= q(\boldsymbol{\theta}_d) \sum_{\boldsymbol{z}} q(\boldsymbol{z}) \sum_{i=1}^{n_d} \log p(z_{d,i} | \boldsymbol{\theta}_d) - q(\boldsymbol{\theta}_d) \log q(\boldsymbol{\theta}_d) + q(\boldsymbol{\theta}_d) \log p(\boldsymbol{\theta}_d | \boldsymbol{\alpha}) \end{aligned} $$

である。この式を$q(\boldsymbol{\theta}_d)$に関して変分する。

$$ \begin{align} \frac{ \partial f(\boldsymbol{\theta}_d, q(\boldsymbol{\theta}_d)) }{ \partial q(\boldsymbol{\theta}_d) } &= \sum_{\boldsymbol{z}} q(\boldsymbol{z}) \sum_{i=1}^{n_d} \log p(z_{d,i} | \boldsymbol{\theta}_d) - \log q(\boldsymbol{\theta}_d) - q(\boldsymbol{\theta}_d) \frac{1}{q(\boldsymbol{\theta}_d)} + \log p(\boldsymbol{\theta}_d | \boldsymbol{\alpha}) \\ &= \sum_{\boldsymbol{z}} q(\boldsymbol{z}) \sum_{i=1}^{n_d} \log p(z_{d,i} | \boldsymbol{\theta}_d) - \log q(\boldsymbol{\theta}_d) + \log p(\boldsymbol{\theta}_d | \boldsymbol{\alpha}) - 1 \tag{3.87} \end{align} $$

 $\frac{\partial f(\boldsymbol{\theta}_d, q(\boldsymbol{\theta}_d))}{\partial q(\boldsymbol{\theta}_d)} = 0$となる$q(\boldsymbol{\theta}_d)$を求める。

$$ \begin{aligned} \sum_{\boldsymbol{z}} q(\boldsymbol{z}) \sum_{i=1}^{n_d} \log p(z_{d,i} | \boldsymbol{\theta}_d) &- \log q(\boldsymbol{\theta}_d) + \log p(\boldsymbol{\theta}_d | \boldsymbol{\alpha}) - 1 = 0 \\ \log q(\boldsymbol{\theta}_d) &= \sum_{\boldsymbol{z}} q(\boldsymbol{z}) \sum_{i=1}^{n_d} \log p(z_{d,i} | \boldsymbol{\theta}_d) + \log p(\boldsymbol{\theta}_d | \boldsymbol{\alpha}) - 1 \\ q(\boldsymbol{\theta}_d) &= \exp \left[ \sum_{\boldsymbol{z}} q(\boldsymbol{z}) \sum_{i=1}^{n_d} \log p(z_{d,i} | \boldsymbol{\theta}_d) + \log p(\boldsymbol{\theta}_d | \boldsymbol{\alpha}) - 1 \right] \\ &\propto \exp \left[ \sum_{\boldsymbol{z}} q(\boldsymbol{z}) \sum_{i=1}^{n_d} \log p(z_{d,i} | \boldsymbol{\theta}_d) + \log p(\boldsymbol{\theta}_d | \boldsymbol{\alpha}) \right] \end{aligned} $$

 更に、正規化項を省いたDirichlet分布$p(\boldsymbol{\theta}_d | \boldsymbol{\alpha}) \propto \prod_{k=1}^K \theta_{d,k}^{\alpha_k-1}$を用いて

$$ \begin{align} q(\boldsymbol{\theta}_d) &\propto \exp \left[ \sum_{\boldsymbol{z}} q(\boldsymbol{z}) \sum_{i=1}^{n_d} \log p(z_{d,i} | \boldsymbol{\theta}_d) + \log p(\boldsymbol{\theta}_d | \boldsymbol{\alpha}) \right] \\ &\propto \exp \left[ \sum_{\boldsymbol{z}} q(\boldsymbol{z}) \sum_{i=1}^{n_d} \log \prod_{k=1}^K \theta_{d,k}^{\delta(z_{d,i} = k)} + \log \prod_{k=1}^K \theta_{d,k}^{\alpha_k-1} \right] \\ &= \exp \left[ \sum_{\boldsymbol{z}} q(\boldsymbol{z}) \sum_{i=1}^{n_d} \sum_{k=1}^K \delta(z_{d,i} = k) \log \theta_{d,k} + \sum_{k=1}^K (\alpha_k - 1) \log \theta_{d,k} \right] \\ &= \exp \left[ \sum_{k=1}^K \mathbb{E}_{q(\boldsymbol{z})} [ n_{d,k} ] \log \theta_{d,k} + \sum_{k=1}^K (\alpha_k - 1) \log \theta_{d,k} \right] \\ &= \exp \left[ \sum_{k=1}^K ( \mathbb{E}_{q(\boldsymbol{z})} [n_{d,k}] + \alpha_k - 1 ) \log \theta_{d,k} \right] \\ &= \prod_{k=1}^K \theta_{d,k}^{ \mathbb{E}_{q(\boldsymbol{z})} [n_{d,k}] + \alpha_k - 1 } \tag{3.88} \end{align} $$

となる。
 ここで

$$ \xi_{d,k}^{\theta} = \mathbb{E}_{q(\boldsymbol{z})} [n_{d,k}] + \alpha_k \tag{3.89} $$

とおくと式(3.88)から、$q(\boldsymbol{\theta}_d)$はパラメータ$\boldsymbol{\xi}_d^{\theta} = (\xi_{d,1}^{\theta}, \xi_{d,2}^{\theta}, \cdots, \xi_{d,K}^{\theta})$を持つ正規化項のないDirichlet分布の形をしていることが分かる。正規化すると

$$ q(\boldsymbol{\theta} | \boldsymbol{\xi}_d^{\theta}) = \frac{ \Gamma(\sum_{k=1}^K \xi_{d,k}^{\theta}) }{ \prod_{k=1}^K \xi_{d,k}^{\theta} } \prod_{k=1}^K \theta_{d,k}^{\xi_{d,k}^{\theta}-1} \tag{3.90} $$

が得られる。

・単語分布の近似事後分布の導出

 続いて、単語分布の近似事後分布を導出する。
 トピック分布と同様に、変分下限$F[q(\boldsymbol{z}_{1:n}, \boldsymbol{\phi}, \boldsymbol{\pi})]$から$\boldsymbol{\phi}_k$に関係のある項のみ取り出して、$\tilde{F}[\boldsymbol{\phi}_k]$とおく。

ここで、変分下限の1つ目の因子は

$$ \begin{align} &\int \sum_{d=1}^M \sum_{i=1}^{n_d} \sum_{z_{d,i}} q(z_{d,i}) q(\boldsymbol{\theta}_d) q(\boldsymbol{\phi}) \log p(w_{d,i} | z_{d,i}, \boldsymbol{\phi}) p(z_{d,i} | \boldsymbol{\theta}_d) d\boldsymbol{\phi} d\boldsymbol{\theta}_d \\ &= \int \sum_{d=1}^M \sum_{i=1}^{n_d} \sum_{z_{d,i}} q(z_{d,i}) q(\boldsymbol{\theta}_d) q(\boldsymbol{\phi}) \log p(w_{d,i} | \boldsymbol{\phi}_{z_{d,i}}) p(z_{d,i} | \boldsymbol{\theta}_d) d\boldsymbol{\phi} d\boldsymbol{\theta}_d \\ &= \int \sum_{d=1}^M \sum_{i=1}^{n_d} \sum_{z_{d,i}} q(z_{d,i}) q(\boldsymbol{\theta}_d) q(\boldsymbol{\phi}) \log \left( \prod_{k=1}^K p(w_{d,i} | \boldsymbol{\phi}_k)^{\delta(z_{d,i}=k)} p(z_{d,i} | \boldsymbol{\theta}_d) \right) d\boldsymbol{\phi} d\boldsymbol{\theta}_d \\ &= \int q(\boldsymbol{\phi}) \sum_{d=1}^M \sum_{i=1}^{n_d} \sum_{z_{d,i}} q(\boldsymbol{\theta}_d) q(z_{d,i}) \sum_{k=1}^K \delta(z_{d,i} = k) \log p(w_{d,i} | \boldsymbol{\phi}_k) p(z_{d,i} | \boldsymbol{\theta}_d) d\boldsymbol{\phi} d\boldsymbol{\theta}_d \\ &= \int q(\boldsymbol{\phi}) \sum_{d=1}^M \sum_{i=1}^{n_d} \sum_{k=1}^K q(\boldsymbol{\theta}_d) q(z_{d,i} = k) \log p(w_{d,i} | \boldsymbol{\phi}_k) p(z_{d,i} | \boldsymbol{\theta}_d) d\boldsymbol{\phi} d\boldsymbol{\theta}_d \\ &= \int \sum_{k=1}^K q(\boldsymbol{\phi}_k) \sum_{d=1}^M \sum_{i=1}^{n_d} q(\boldsymbol{\theta}_d) q(z_{d,i} = k) \log p(w_{d,i} | \boldsymbol{\phi}_k) p(z_{d,i} | \boldsymbol{\theta}_d) d\boldsymbol{\phi} d\boldsymbol{\theta}_d \tag{3.91} \end{align} $$

である。(ちょっとよく解ってない…)

$$ \tilde{F}[\boldsymbol{\phi}_k] = \int q(\boldsymbol{\phi}_k) \sum_{d=1}^M \sum_{i=1}^{n_d} q(z_{d,i} = k) \log p(w_{d,i} | \boldsymbol{\phi}_k) d\boldsymbol{\phi}_k - \int q(\boldsymbol{\phi}_k) \log \frac{ q(\boldsymbol{\phi}_k) }{ p(\boldsymbol{\phi}_k | \boldsymbol{\beta}) } d\boldsymbol{\phi}_k \tag{3.92} $$

$q(\boldsymbol{\phi}_k)$に関係する項を取り出したので、$k = 1, 2, \cdots, k - 1, k + 1, \cdots, K$については含まれない。
 $\tilde{F}[\boldsymbol{\phi}_k] = \int f(\boldsymbol{\phi}_k, q(\boldsymbol{\phi}_k)) d\boldsymbol{\phi}_k$とすると

$$ \begin{aligned} f(\boldsymbol{\phi}_k, q(\boldsymbol{\phi}_k)) &= q(\boldsymbol{\phi}_k) \sum_{d=1}^M \sum_{i=1}^{n_d} q(z_{d,i} = k) \log p(w_{d,i} | \boldsymbol{\phi}_k) - q(\boldsymbol{\phi}_k) \log \frac{ q(\boldsymbol{\phi}_k) }{ p(\boldsymbol{\phi}_k | \boldsymbol{\beta}) } \\ &= q(\boldsymbol{\phi}_k) \sum_{d=1}^M \sum_{i=1}^{n_d} q(z_{d,i} = k) \log p(w_{d,i} | \boldsymbol{\phi}_k) - q(\boldsymbol{\phi}_k) \Bigl( \log q(\boldsymbol{\phi}_k) - \log p(\boldsymbol{\phi}_k | \boldsymbol{\beta}) \Bigr) \\ &= q(\boldsymbol{\phi}_k) \sum_{d=1}^M \sum_{i=1}^{n_d} q(z_{d,i} = k) \log p(w_{d,i} | \boldsymbol{\phi}_k) - q(\boldsymbol{\phi}_k) \log q(\boldsymbol{\phi}_k) + q(\boldsymbol{\phi}_k) \log p(\boldsymbol{\phi}_k | \boldsymbol{\beta}) \end{aligned} $$

である。
 この式を$q(\boldsymbol{\phi}_k)$に関して変分する。

$$ \begin{align} \frac{ \partial f(\boldsymbol{\phi}_k, q(\boldsymbol{\phi}_k)) }{ \partial q(\boldsymbol{\phi}_k) } &= \sum_{d=1}^M \sum_{i=1}^{n_d} q(z_{d,i} = k) \log p(w_{d,i} | \boldsymbol{\phi}_k) - \log q(\boldsymbol{\phi}_k) - q(\boldsymbol{\phi}_k) \frac{1}{q(\boldsymbol{\phi}_k)} + \log p(\boldsymbol{\phi}_k | \boldsymbol{\beta}) \\ &= \sum_{d=1}^M \sum_{i=1}^{n_d} q(z_{d,i} = k) \log p(w_{d,i} | \boldsymbol{\phi}_k) - \log q(\boldsymbol{\phi}_k) + \log p(\boldsymbol{\phi}_k | \boldsymbol{\beta}) - 1 \tag{3.93} \end{align} $$

 $\frac{\partial f(\boldsymbol{\phi}_k, q(\boldsymbol{\phi}_k))}{\partial q(\boldsymbol{\phi}_k)} = 0$となる$q(\boldsymbol{\phi}_k)$を求める。

$$ \begin{aligned} \sum_{d=1}^M \sum_{i=1}^{n_d} q(z_{d,i} = k) \log p(w_{d,i} | \boldsymbol{\phi}_k) &- \log q(\boldsymbol{\phi}_k) + \log p(\boldsymbol{\phi}_k | \boldsymbol{\beta}) - 1 = 0 \\ \log q(\boldsymbol{\phi}_k) &= \sum_{d=1}^M \sum_{i=1}^{n_d} q(z_{d,i} = k) \log p(w_{d,i} | \boldsymbol{\phi}_k) + \log p(\boldsymbol{\phi}_k | \boldsymbol{\beta}) - 1 \\ q(\boldsymbol{\phi}_k) &= \exp \left[ \sum_{d=1}^M \sum_{i=1}^{n_d} q(z_{d,i} = k) \log p(w_{d,i} | \boldsymbol{\phi}_k) + \log p(\boldsymbol{\phi}_k | \boldsymbol{\beta}) - 1 \right] \\ &\propto \exp \left[ \sum_{d=1}^M \sum_{i=1}^{n_d} q(z_{d,i} = k) \log p(w_{d,i} | \boldsymbol{\phi}_k) + \log p(\boldsymbol{\phi}_k | \boldsymbol{\beta}) \right] \end{aligned} $$

 更に、正規化項を省いたDirichlet分布$p(\boldsymbol{\phi}_k | \boldsymbol{\beta}) \propto \prod_{v=1}^V \phi_{k,v}^{\beta_v-1}$を用いて

$$ \begin{align} q(\boldsymbol{\phi}_k) &\propto \exp \left[ \sum_{d=1}^M \sum_{i=1}^{n_d} q(z_{d,i} = k) \log p(w_{d,i} | \boldsymbol{\phi}_k) + \log p(\boldsymbol{\phi}_k | \boldsymbol{\beta}) \right] \\ &\propto \exp \left[ \sum_{d=1}^M \sum_{i=1}^{n_d} q(z_{d,i} = k) \log \prod_{v=1}^V \phi_{k,v}^{\delta(w_{d,i} = v)} + \log \prod_{v=1}^V \phi_{k,v}^{\beta_v-1} \right] \\ &= \exp \left[ \sum_{d=1}^M \sum_{i=1}^{n_d} \sum_{v=1}^V q(z_{d,i} = k) \delta(w_{d,i} = v) \log \phi_{k,v} + \sum_{v=1}^V (\beta_v - 1) \log \phi_{k,v} \right] \\ &= \exp \left[ \sum_{v=1}^V \mathbb{E}_{q(\boldsymbol{z})} [ n_{k,v} ] \log \phi_{k,v} + \sum_{v=1}^V (\beta_v - 1) \log \phi_{k,v} \right] \\ &= \exp \left[ \sum_{v=1}^V ( \mathbb{E}_{q(\boldsymbol{z})} [n_{k,v}] + \beta_v - 1 ) \log \phi_{k,v} \right] \\ &= \prod_{v=1}^V \phi_{k,v}^{\mathbb{E}_{q(\boldsymbol{z})}[n_{k,v}]+\beta_v-1} \tag{3.94} \end{align} $$

となる。
 ここで

$$ \xi_{k,v}^{\phi} = \mathbb{E}_{q(\boldsymbol{z})}[n_{k,v}] + \beta_v $$

とおくと式(3.94)から、$q(\boldsymbol{z})$はパラメータ$\boldsymbol{\xi}_k^{\phi} = (\xi_{k,1}^{\phi}, \xi_{k,2}^{\phi}, \cdots, \xi_{k,V}^{\phi})$を持つ正規化項のないDirichlet分布の形をしていることが分かる。正規化すると

$$ q(\boldsymbol{\phi}_k | \boldsymbol{\xi}_k^{\phi}) = \frac{ \Gamma(\sum_{v=1}^V \xi_{k,v}^{\phi}) }{ \prod_{v=1}^V \Gamma(\xi_{k,v}^{\phi}) } \prod_{v=1}^V \phi_{k,v}^{\xi_{k,v}^{\phi}-1} \tag{3.96} $$

が得られる。

・トピック集合の近似事後分布の導出

 最後に、トピック集合の近似事後分布を求めていく。
 これまでと同様に、変分下限$F[q(\boldsymbol{z}_{1:n}, \boldsymbol{\phi}, \boldsymbol{\pi})]$から$q(z_{d,i})$に関係する項のみ取り出して$\tilde{F}[q(z_{d,i})]$とする。

$$ \begin{align} \tilde{F}[q(z_{d,i})] &= \int \sum_{z_{d,i}} q(z_{d,i}) q(\boldsymbol{\theta}_d) q(\boldsymbol{\phi}) \log \Bigl( p(w_{d,i} | z_{d,i}, \boldsymbol{\phi}) p(z_{d,i} | \boldsymbol{\theta}_d) \Bigr) d\boldsymbol{\phi} d\boldsymbol{\theta}_d - \sum_{k=1}^K q(z_{d,i} = k) \log q(z_{d,i} = k) \\ &= \sum_{k=1}^K q(z_{d,i} = k) \int q(\boldsymbol{\phi}_k) q(\boldsymbol{\theta}_d) \log \Bigl( p(w_{d,i} | \boldsymbol{\phi}_k) p(z_{d,i} = k | \boldsymbol{\theta}_d) \Bigr) d\boldsymbol{\phi}_k d\boldsymbol{\theta}_d - \sum_{k=1}^K q(z_{d,i} = k) \log q(z_{d,i} = k) \\ &= \sum_{k=1}^K q(z_{d,i} = k) \int q(\boldsymbol{\phi}_k) q(\boldsymbol{\theta}_d) \log ( \phi_{k,w_{d,i}} \theta_{d,k} ) d\boldsymbol{\phi}_k d\boldsymbol{\theta}_d - \sum_{k=1}^K q(z_{d,i} = k) \log q(z_{d,i} = k) \tag{3.97} \end{align} $$

 $\tilde{F}[q(z_{d,i})]$を$q(z_{d,i} = k)$に関して変分する。

$$ \begin{align} \frac{ \partial \tilde{F}[q(z_{d,i})] }{ \partial q(z_{d,i} = k) } &= \int q(\boldsymbol{\phi}_k) q(\boldsymbol{\theta}_d) \log ( \phi_{k,w_{d,i}} \theta_{d,k} ) d\boldsymbol{\phi}_k d\boldsymbol{\theta}_d - \log q(z_{d,i} = k) - q(z_{d,i} = k) \frac{1}{q(z_{d,i} = k)} \\ &= \int q(\boldsymbol{\phi}_k) q(\boldsymbol{\theta}_d) \log ( \phi_{k,w_{d,i}} \theta_{d,k} ) d\boldsymbol{\phi}_k d\boldsymbol{\theta}_d - \log q(z_{d,i} = k) - 1 \tag{3.98} \end{align} $$

 $\frac{\partial \tilde{F}[q(z_{d,i})]}{\partial q(z_{d,i} = k)} = 0$となる$q(z_{d,i} = k)$を求める。

$$ \begin{align} \int q(\boldsymbol{\phi}_k) q(\boldsymbol{\theta}_d) \log ( \phi_{k,w_{d,i}} \theta_{d,k} ) d\boldsymbol{\phi}_k d\boldsymbol{\theta}_d &- \log q(z_{d,i} = k) - 1 = 0 \\ \log q(z_{d,i} = k) &= \int q(\boldsymbol{\phi}_k) q(\boldsymbol{\theta}_d) \log ( \phi_{k,w_{d,i}} \theta_{d,k} ) d\boldsymbol{\phi}_k d\boldsymbol{\theta}_d - 1 \\ q(z_{d,i} = k) &= \exp \left[ \int q(\boldsymbol{\phi}_k) q(\boldsymbol{\theta}_d) \log ( \phi_{k,w_{d,i}} \theta_{d,k} ) d\boldsymbol{\phi}_k d\boldsymbol{\theta}_d - 1 \right] \\ &= \exp \left[ \int q(\boldsymbol{\phi}_k) q(\boldsymbol{\theta}_d) ( \log \phi_{k,w_{d,i}} + \log \theta_{d,k} ) d\boldsymbol{\phi}_k d\boldsymbol{\theta}_d - 1 \right] \\ &= \exp \left[ \int q(\boldsymbol{\theta}_d) d\boldsymbol{\theta}_d \int q(\boldsymbol{\phi}_k) \log \phi_{k,w_{d,i}} d\boldsymbol{\phi}_k + \int q(\boldsymbol{\phi}_k) d\boldsymbol{\phi}_k \int q(\boldsymbol{\theta}_d) \log \theta_{d,k} d\boldsymbol{\theta}_d - 1 \right] \\ &\propto \exp \left[ \int q(\boldsymbol{\phi}_k) \log \phi_{k,w_{d,i}} d\boldsymbol{\phi}_k \right] \exp \left[ \int q(\boldsymbol{\theta}_d) \log \theta_{d,k} d\boldsymbol{\theta}_d \right] \\ &= \exp \left[ \mathbb{E}_{q(\boldsymbol{\phi}_k)} [ \log \phi_{k,w_{d,i}} ] \right] \exp \left[ \mathbb{E}_{q(\boldsymbol{\theta}_d)} [ \log \theta_{d,k} ] \right] \end{align} $$

 更に、先ほど得られた

$$ \begin{aligned} q(\boldsymbol{\phi}_k) &\propto q(\boldsymbol{\phi}_k | \boldsymbol{\xi}_k^{\phi}) \\ q(\boldsymbol{\theta}_d) &\propto q(\boldsymbol{\theta}_d | \boldsymbol{\xi}_k^{\theta}) \end{aligned} $$

の関係と期待値計算式(3.79)を用いて

$$ \begin{align} q(z_{d,i} = k) &\propto \exp \left[ \mathbb{E}_{q(\boldsymbol{\phi}_k)} [ \log \phi_{k,w_{d,i}} ] \right] \exp \left[ \mathbb{E}_{q(\boldsymbol{\theta}_d)} [ \log \theta_{d,k} ] \right] \\ &\propto \exp \left[ \mathbb{E}_{q(\boldsymbol{\phi}_k | \boldsymbol{\xi}_k^{\phi})} [ \log \phi_{k,w_{d,i}} ] \right] \exp \left[ \mathbb{E}_{q(\boldsymbol{\theta}_d | \boldsymbol{\xi}_k^{\theta})} [ \log \theta_{d,k} ] \right] \\ &= \exp \left[ \Psi( \xi_{k,w_{d,i}}^{\phi} ) - \Psi \left( \sum_{v'=1}^V \xi_{k,v'}^{\theta} \right) \right] \exp \left[ \Psi( \xi_{d,k}^{\theta} ) - \Psi \left( \sum_{k'=1}^K \xi_{d,k'}^{\theta} \right) \right] \\ &= \exp \left[ \Psi( \xi_{k,w_{d,i}}^{\phi} ) \right] \frac{ 1 }{ \exp \left[ \Psi \left( \sum_{v'=1}^V \xi_{k,v'}^{\theta} \right) \right] } \exp \left[ \Psi( \xi_{d,k}^{\theta} ) \right] \frac{ 1 }{ \exp \left[ \Psi \left( \sum_{k'=1}^K \xi_{d,k'}^{\theta} \right) \right] } \\ &= \frac{ \exp \left[ \Psi( \xi_{k,w_{d,i}}^{\phi} ) \right] }{ \exp \left[ \Psi \left( \sum_{v'=1}^V \xi_{k,v'}^{\theta} \right) \right] } \frac{ \exp \left[ \Psi( \xi_{d,k}^{\theta} ) \right] }{ \exp \left[ \Psi \left( \sum_{k'=1}^K \xi_{d,k'}^{\theta} \right) \right] } \tag{3.99} \end{align} $$

が得られる。

参考文献

  • 佐藤一誠『トピックモデルによる統計的潜在意味解析』(自然言語処理シリーズ 8)奥村学監修,コロナ社,2015年.

おわりに

 まだ青本でやった内容なので分かるぞ。

【次節の内容】

www.anarchive-beta.com