はじめに
『トピックモデルによる統計的潜在意味解析』の学習時のメモです。基本的な内容は、数式の行間を読んで埋めたものになります。本と併せて読んでいただければと思います。
この記事では、主に3.3.5節の近似事後分布の形を仮定しないLDAの変分ベイズ法について書いています。
数学よく解らない自分が理解できるレベルまで落として数式を書き下していますので、分かる人にはかなりくどいです。
【実装編】
www.anarchive-beta.com
www.anarchive-beta.com
【前節の内容】
www.anarchive-beta.com
【他の節一覧】
www.anarchive-beta.com
【この節の内容】
3.3.4 LDAの変分ベイズ法(準備)
・Dirichlet分布の期待値の導出
Dirichlet分布の期待値計算を導出する。
$$
\begin{align}
\int
p(\boldsymbol{\theta} | \boldsymbol{\alpha})
d\boldsymbol{\theta}
&= 1
\\
\int
\frac{
\Gamma(\sum_{k=1}^K \alpha_k)
}{
\prod_{k=1}^K \Gamma(\alpha_k)
}
\prod_{k=1}^K
\theta_k^{\alpha_k-1}
d\boldsymbol{\theta}
&= 1
\\
\int
\prod_{k=1}^K
\theta_k^{\alpha_k-1}
d\boldsymbol{\theta}
&= \frac{
\prod_{k=1}^K \Gamma(\alpha_k)
}{
\Gamma(\sum_{k=1}^K \alpha_k)
}
\tag{3.75}\\
\int
\exp \left[
\log \left(
\prod_{k=1}^K
\theta_k^{\alpha_k-1}
\right)
\right]
d\boldsymbol{\theta}
&= \frac{
\prod_{k=1}^K \Gamma(\alpha_k)
}{
\Gamma(\sum_{k=1}^K \alpha_k)
}
\\
\int
\exp \left[
\sum_{k=1}^K
(\alpha_k - 1)
\log \theta_k
\right]
d\boldsymbol{\theta}
&= \frac{
\prod_{k=1}^K \Gamma(\alpha_k)
}{
\Gamma(\sum_{k=1}^K \alpha_k)
}
\tag{3.76}\\
\log \left(
\int
\exp \left[
\sum_{k=1}^K
(\alpha_k - 1)
\log \theta_k
\right]
d\boldsymbol{\theta}
\right)
&= \log \left(
\frac{
\prod_{k=1}^K \Gamma(\alpha_k)
}{
\Gamma(\sum_{k=1}^K \alpha_k)
}
\right)
\\
&= \sum_{k=1}^K
\log \Gamma(\alpha_k)
- \log \Gamma \left(
\sum_{k=1}^K \alpha_k
\right)
\tag{3.77}
\end{align}
$$
この式の両辺を$\alpha_k$で微分する。
$$
\begin{align}
\frac{
1
}{
\int
\exp \left[
\sum_{k'=1}^K
(\alpha_{k'} - 1)
\log \theta_{k'}
\right]
d\boldsymbol{\theta}
}
\int
\exp \left[
\sum_{k'=1}^K
(\alpha_{k'} - 1)
\log \theta_{k'}
\right]
d\boldsymbol{\theta}
(\log \theta_k)
&= \frac{
d\log \Gamma(\alpha_k)
}{
d\alpha_k
}
- \frac{
d\log \Gamma \left(
\sum_{k=1}^K \alpha_k
\right)
}{
d\alpha_k
}
\\
\int
(\log \theta_k)
\frac{
\Gamma(\sum_{k'=1}^K \alpha_{k'})
}{
\prod_{k'=1}^K \Gamma(\alpha_{k'})
}
\prod_{k'=1}^K
\theta_{k'}^{\alpha_{k'}-1}
d\boldsymbol{\theta}
&= \Psi(\alpha_k)
- \Psi \left(
\sum_{k=1}^K \alpha_k
\right)
\\
\int
p(\boldsymbol{\theta} | \boldsymbol{\alpha})
\log \theta_k
d\boldsymbol{\theta}
&= \Psi(\alpha_k)
- \Psi \left(
\sum_{k=1}^K \alpha_k
\right)
\\
\mathbb{E}_{p(\boldsymbol{\theta} | \boldsymbol{\alpha})} [
\log \theta_k
]
&= \Psi(\alpha_k)
- \Psi \left(
\sum_{k=1}^K \alpha_k
\right)
\tag{3.79}
\end{align}
$$
【途中式の途中式】
- 左辺は合成関数の微分より
- $f' = (\log A)' = \frac{1}{A}$
- $A' = (\exp[B])' = \exp[B]$
- $B' = (\sum_{k=1}^K \alpha_k \log \theta_k - \theta_k)' = \log \theta_k$
- 左辺の前の項を式(3.76)より正規化項の逆数に置き換える。
- 左辺の後の項の$\exp[\log()]$を外す。
- 右辺をプサイ関数にそれぞれ置き換える。
- Dirichlet分布の式を$p()$の表記に戻す。
- 期待値の計算式になっているため$\mathbb{E}[]$の表記に置き換える。
続いて、この期待値計算を用いて、Dirichlet分布のKL情報量を求めていく。
・Dirichlet分布のKL情報量の導出
$$
\begin{align}
\int
p(\boldsymbol{\theta} | \boldsymbol{\xi})
\log p(\boldsymbol{\theta} | \boldsymbol{\alpha})
d\boldsymbol{\theta}
&= \int
p(\boldsymbol{\theta} | \boldsymbol{\xi})
\log \frac{
\Gamma(\sum_{k=1}^K \alpha_k)
}{
\prod_{k=1}^K \Gamma(\alpha_k)
}
\prod_{k=1}^K \theta_k^{\alpha_k-1}
d\boldsymbol{\theta}
\\
&= \int
p(\boldsymbol{\theta} | \boldsymbol{\xi})
\left(
\log \frac{
\Gamma(\sum_{k=1}^K \alpha_k)
}{
\prod_{k=1}^K \Gamma(\alpha_k)
}
+ \log \prod_{k=1}^K \theta_k^{\alpha_k-1}
\right)
d\boldsymbol{\theta}
\\
&= \int
p(\boldsymbol{\theta} | \boldsymbol{\xi})
d\boldsymbol{\theta}
\log \frac{
\Gamma(\sum_{k=1}^K \alpha_k)
}{
\prod_{k=1}^K \Gamma(\alpha_k)
}
+ \int
p(\boldsymbol{\theta} | \boldsymbol{\xi})
\log \prod_{k=1}^K \theta_k^{\alpha_k-1}
d\boldsymbol{\theta}
\\
&= \log \frac{
\Gamma(\sum_{k=1}^K \alpha_k)
}{
\prod_{k=1}^K \Gamma(\alpha_k)
}
+ \sum_{k=1}^K
(\alpha_k - 1)
\int
p(\boldsymbol{\theta} | \boldsymbol{\xi})
\log \theta_k
d\boldsymbol{\theta}
\\
&= \log \frac{
\Gamma(\sum_{k=1}^K \alpha_k)
}{
\prod_{k=1}^K \Gamma(\alpha_k)
}
+ \sum_{k=1}^K
(\alpha_k - 1)
\mathbb{E}_{p(\boldsymbol{\theta} | \boldsymbol{\xi})}[
\log \theta_k
]
\tag{3.80}
\end{align}
$$
これを用いて、KL情報量は
$$
\begin{align}
{\rm KL}[
p(\boldsymbol{\theta} | \boldsymbol{\xi}) \parallel p(\boldsymbol{\theta} | \boldsymbol{\alpha})
]
&= \int
p(\boldsymbol{\theta} | \boldsymbol{\xi})
\log \frac{
p(\boldsymbol{\theta} | \boldsymbol{\xi})
}{
p(\boldsymbol{\theta} | \boldsymbol{\alpha})
}
d\boldsymbol{\theta}
\\
&= \int
p(\boldsymbol{\theta} | \boldsymbol{\xi}) \Bigl(
\log p(\boldsymbol{\theta} | \boldsymbol{\xi})
- \log p(\boldsymbol{\theta} | \boldsymbol{\alpha})
\Bigr)
d\boldsymbol{\theta}
\\
&= \int
p(\boldsymbol{\theta} | \boldsymbol{\xi})
\log p(\boldsymbol{\theta} | \boldsymbol{\xi})
d\boldsymbol{\theta}
- \int
p(\boldsymbol{\theta} | \boldsymbol{\xi})
\log p(\boldsymbol{\theta} | \boldsymbol{\alpha})
d\boldsymbol{\theta}
\\
&= \log \frac{
\Gamma(\sum_{k=1}^K \xi_k)
}{
\prod_{k=1}^K \Gamma(\xi_k)
}
+ \sum_{k=1}^K
(\xi_k - 1)
\mathbb{E}_{p(\boldsymbol{\theta} | \boldsymbol{\xi})}[
\log \theta_k
]\\
&\qquad
- \log \frac{
\Gamma(\sum_{k=1}^K \alpha_k)
}{
\prod_{k=1}^K \Gamma(\alpha_k)
}
- \sum_{k=1}^K
(\alpha_k - 1)
\mathbb{E}_{p(\boldsymbol{\theta} | \boldsymbol{\xi})}[
\log \theta_k
]
\\
&= \log \frac{
\Gamma(\sum_{k=1}^K \xi_k)
}{
\prod_{k=1}^K \Gamma(\xi_k)
}
- \log \frac{
\Gamma(\sum_{k=1}^K \alpha_k)
}{
\prod_{k=1}^K \Gamma(\alpha_k)
}
+ \sum_{k=1}^K \{
(\xi_k - 1)
- (\alpha_k - 1)
\}
\mathbb{E}_{p(\boldsymbol{\theta} | \boldsymbol{\xi})}[
\log \theta_k
]
\\
&= \log \frac{
\Gamma(\sum_{k=1}^K \xi_k)
}{
\prod_{k=1}^K \Gamma(\xi_k)
}
- \log \frac{
\Gamma(\sum_{k=1}^K \alpha_k)
}{
\prod_{k=1}^K \Gamma(\alpha_k)
}
+ \sum_{k=1}^K
(\xi_k - \alpha_k)
\mathbb{E}_{p(\boldsymbol{\theta} | \boldsymbol{\xi})}[
\log \theta_k
]
\tag{3.81}
\end{align}
$$
となる。
3.3.5 LDAの変分ベイズ法(1)
LDAの変分ベイズ法の導出を行う。この節では、あらかじめ近似事後分布の形を仮定せずに導出する。
・変分下限の導出
$\boldsymbol{z}, \boldsymbol{\phi}, \boldsymbol{\theta}$について周辺化(積分消去)して対数をとった対数周辺尤度$\log p(\boldsymbol{w} | \boldsymbol{\alpha}, \boldsymbol{\beta})$に対して、イエンセンの不等式を用いて変分下限を求める。
$$
\begin{align}
\log p(\boldsymbol{w} | \boldsymbol{\alpha}, \boldsymbol{\beta})
&= \log \int \sum_{\boldsymbol{z}}
p(\boldsymbol{w}, \boldsymbol{z}, \boldsymbol{\phi}, \boldsymbol{\theta} | \boldsymbol{\alpha}, \boldsymbol{\beta})
d\boldsymbol{\phi} d\boldsymbol{\theta}
\\
&= \log \int \sum_{\boldsymbol{z}}
q(\boldsymbol{z}, \boldsymbol{\theta}, \boldsymbol{\phi})
\frac{
p(\boldsymbol{w}, \boldsymbol{z}, \boldsymbol{\phi}, \boldsymbol{\theta} | \boldsymbol{\alpha}, \boldsymbol{\beta})
}{
q(\boldsymbol{z}, \boldsymbol{\theta}, \boldsymbol{\phi})
}
d\boldsymbol{\phi} d\boldsymbol{\theta}
\\
&\geq
\int \sum_{\boldsymbol{z}}
q(\boldsymbol{z}, \boldsymbol{\theta}, \boldsymbol{\phi})
\log \frac{
p(\boldsymbol{w}, \boldsymbol{z}, \boldsymbol{\phi}, \boldsymbol{\theta} | \boldsymbol{\alpha}, \boldsymbol{\beta})
}{
q(\boldsymbol{z}, \boldsymbol{\theta}, \boldsymbol{\phi})
}
d\boldsymbol{\phi} d\boldsymbol{\theta}
\equiv F[q(\boldsymbol{z}, \boldsymbol{\theta}, \boldsymbol{\phi})]
\tag{3.82}
\end{align}
$$
ここで、近似事後分布は
$$
\begin{align}
q(\boldsymbol{z}, \boldsymbol{\theta}, \boldsymbol{\phi})
&= q(\boldsymbol{z})
q(\boldsymbol{\theta})
q(\boldsymbol{\phi})
\\
&= \left[ \prod_{d=1}^M \prod_{i=1}^{n_d}
q(z_{d,i})
\right]
\left[ \prod_{d=1}^M
q(\boldsymbol{\theta}_d)
\right]
\left[ \prod_{k=1}^K
q(\boldsymbol{\phi}_k)
\right]
\tag{3.83}
\end{align}
$$
このように因子分解できると仮定する。
また、結合分布は生成過程より、ベイズの定理を用いて
$$
\begin{align}
p(\boldsymbol{w}, \boldsymbol{z}, \boldsymbol{\phi}, \boldsymbol{\theta} | \boldsymbol{\alpha}, \boldsymbol{\beta})
&= p(\boldsymbol{w}, \boldsymbol{z} | \boldsymbol{\phi}, \boldsymbol{\theta})
p(\boldsymbol{\phi} | \boldsymbol{\beta})
p(\boldsymbol{\theta} | \boldsymbol{\alpha})
\\
&= p(\boldsymbol{w} | \boldsymbol{z}, \boldsymbol{\phi})
p(\boldsymbol{z} | \boldsymbol{\theta})
p(\boldsymbol{\phi} | \boldsymbol{\beta})
p(\boldsymbol{\theta} | \boldsymbol{\alpha})
\\
&= \left[ \prod_{d=1}^M \prod_{i=1}^{n_d}
p(w_{d,i} | \boldsymbol{\phi}_{z_{d,i}})
p(z_{d,i} | \boldsymbol{\theta}_d)
\right]
\left[ \prod_{k=1}^K
p(\boldsymbol{\phi}_k | \boldsymbol{\beta})
\right]
\left[ \prod_{d=1}^M
p(\boldsymbol{\theta}_d | \boldsymbol{\alpha})
\right]
\tag{3.84}
\end{align}
$$
となる。
従って、式(3.83)と式(3.84)より、変分下限$F[q(\boldsymbol{z}, \boldsymbol{\theta}, \boldsymbol{\phi})]$は
$$
\begin{align}
F[q(\boldsymbol{z}, \boldsymbol{\theta}, \boldsymbol{\phi})]
&= \int \sum_{\boldsymbol{z}}
q(\boldsymbol{z}, \boldsymbol{\theta}, \boldsymbol{\phi})
\log \frac{
p(\boldsymbol{w}, \boldsymbol{z}, \boldsymbol{\phi}, \boldsymbol{\theta} | \boldsymbol{\alpha}, \boldsymbol{\beta})
}{
q(\boldsymbol{z}, \boldsymbol{\theta}, \boldsymbol{\phi})
}
d\boldsymbol{\phi} d\boldsymbol{\theta}
\tag{3.82}\\
&= \int \sum_{\boldsymbol{z}}
q(\boldsymbol{z})
q(\boldsymbol{\theta})
q(\boldsymbol{\phi})
\log \frac{
p(\boldsymbol{w} | \boldsymbol{z}, \boldsymbol{\phi})
p(\boldsymbol{z} | \boldsymbol{\theta})
p(\boldsymbol{\phi} | \boldsymbol{\beta})
p(\boldsymbol{\theta} | \boldsymbol{\alpha})
}{
q(\boldsymbol{z})
q(\boldsymbol{\theta})
q(\boldsymbol{\phi})
}
d\boldsymbol{\phi} d\boldsymbol{\theta}
\\
&= \int \sum_{\boldsymbol{z}}
q(\boldsymbol{z})
q(\boldsymbol{\theta})
q(\boldsymbol{\phi}) \left(
\log p(\boldsymbol{w} | \boldsymbol{z}, \boldsymbol{\phi})
p(\boldsymbol{z} | \boldsymbol{\theta})
- \log q(\boldsymbol{z})
+ \log \frac{
p(\boldsymbol{\theta} | \boldsymbol{\alpha})
}{
q(\boldsymbol{\theta})
}
+ \log \frac{
p(\boldsymbol{\phi} | \boldsymbol{\beta})
}{
q(\boldsymbol{\phi})
}
\right)
d\boldsymbol{\phi} d\boldsymbol{\theta}
\\
&= \int \sum_{\boldsymbol{z}}
q(\boldsymbol{z})
q(\boldsymbol{\theta})
q(\boldsymbol{\phi})
\log p(\boldsymbol{w} | \boldsymbol{z}, \boldsymbol{\phi})
p(\boldsymbol{z} | \boldsymbol{\theta})
d\boldsymbol{\phi} d\boldsymbol{\theta}
- \int
q(\boldsymbol{\theta})
q(\boldsymbol{\phi})
d\boldsymbol{\phi} d\boldsymbol{\theta}
\sum_{\boldsymbol{z}}
q(\boldsymbol{z})
\log q(\boldsymbol{z}) \\
&\qquad
+ \int \sum_{\boldsymbol{z}}
q(\boldsymbol{z})
q(\boldsymbol{\phi})
d\boldsymbol{\phi}
\int
q(\boldsymbol{\theta})
\log \frac{
p(\boldsymbol{\theta} | \boldsymbol{\alpha})
}{
q(\boldsymbol{\theta})
}
d\boldsymbol{\theta}
+ \int \sum_{\boldsymbol{z}}
q(\boldsymbol{z})
q(\boldsymbol{\theta})
d\boldsymbol{\theta}
\int
q(\boldsymbol{\phi})
\log \frac{
p(\boldsymbol{\phi} | \boldsymbol{\beta})
}{
q(\boldsymbol{\phi})
}
d\boldsymbol{\phi}
\\
&= \int \sum_{\boldsymbol{z}}
q(\boldsymbol{z})
q(\boldsymbol{\theta})
q(\boldsymbol{\phi})
\log p(\boldsymbol{w} | \boldsymbol{z}, \boldsymbol{\phi})
p(\boldsymbol{z} | \boldsymbol{\theta})
d\boldsymbol{\phi} d\boldsymbol{\theta}
- \sum_{\boldsymbol{z}}
q(\boldsymbol{z})
\log q(\boldsymbol{z}) \\
&\qquad
+ \int
q(\boldsymbol{\theta})
\log \frac{
p(\boldsymbol{\theta} | \boldsymbol{\alpha})
}{
q(\boldsymbol{\theta})
}
d\boldsymbol{\theta}
+ \int
q(\boldsymbol{\phi})
\log \frac{
p(\boldsymbol{\phi} | \boldsymbol{\beta})
}{
q(\boldsymbol{\phi})
}
d\boldsymbol{\phi}
\end{align}
$$
【途中式の途中式】
- 式(3.83)、式(3.84)より項を分解する。
- $\log \frac{A B}{C} = \log A + \log B - \log C$の変形を行う。
- 括弧を展開する。
- $\sum_{\boldsymbol{z}} q(\boldsymbol{z}) = \int q(\boldsymbol{\theta}) d\boldsymbol{\theta} = \int q(\boldsymbol{\phi}) d\boldsymbol{\phi} = 1$であるため消える。
となる。ここから更に、KL情報量の形にしていく。
$$
\begin{align}
F[q(\boldsymbol{z}, \boldsymbol{\theta}, \boldsymbol{\phi})]
&= \int \sum_{\boldsymbol{z}}
q(\boldsymbol{z})
q(\boldsymbol{\theta})
q(\boldsymbol{\phi})
\log p(\boldsymbol{w} | \boldsymbol{z}, \boldsymbol{\phi})
p(\boldsymbol{z} | \boldsymbol{\theta})
d\boldsymbol{\phi} d\boldsymbol{\theta}
- \sum_{\boldsymbol{z}}
q(\boldsymbol{z})
\log q(\boldsymbol{z}) \\
&\qquad
+ \int
q(\boldsymbol{\theta})
\log \frac{
p(\boldsymbol{\theta} | \boldsymbol{\alpha})
}{
q(\boldsymbol{\theta})
}
d\boldsymbol{\theta}
+ \int
q(\boldsymbol{\phi})
\log \frac{
p(\boldsymbol{\phi} | \boldsymbol{\beta})
}{
q(\boldsymbol{\phi})
}
d\boldsymbol{\phi}
\\
&= \int \sum_{\boldsymbol{z}}
q(\boldsymbol{z})
q(\boldsymbol{\theta})
q(\boldsymbol{\phi})
\log p(\boldsymbol{w} | \boldsymbol{z}, \boldsymbol{\phi})
p(\boldsymbol{z} | \boldsymbol{\theta})
d\boldsymbol{\phi} d\boldsymbol{\theta}
- \sum_{\boldsymbol{z}}
q(\boldsymbol{z})
\log q(\boldsymbol{z}) \\
&\qquad
+ \int
q(\boldsymbol{\theta}) \Bigl(
\log p(\boldsymbol{\theta} | \boldsymbol{\alpha})
- \log q(\boldsymbol{\theta})
\Bigr)
d\boldsymbol{\theta}
+ \int
q(\boldsymbol{\phi}) \Bigl(
\log p(\boldsymbol{\phi} | \boldsymbol{\beta})
- \log q(\boldsymbol{\phi})
\Bigr)
d\boldsymbol{\phi}
\\
&= \int \sum_{d=1}^M \sum_{i=1}^{n_d} \sum_{z_{d,i}}
q(z_{d,i})
q(\boldsymbol{\theta}_d)
q(\boldsymbol{\phi})
\log p(w_{d,i} | z_{d,i}, \boldsymbol{\phi})
p(z_{d,i} | \boldsymbol{\theta}_d)
d\boldsymbol{\phi} d\boldsymbol{\theta}_d
- \sum_{d=1}^M \sum_{i=1}^{n_d} \sum_{k=1}^K
q(z_{d,i} = k)
\log q(z_{d,i} = k) \\
&\qquad
- \sum_{d=1}^M \int
q(\boldsymbol{\theta}_d) \Bigl(
- \log p(\boldsymbol{\theta}_d | \boldsymbol{\alpha})
+ \log q(\boldsymbol{\theta}_d)
\Bigr)
d\boldsymbol{\theta}_d
- \sum_{k=1}^K \int
q(\boldsymbol{\phi}_k) \Bigl(
- \log p(\boldsymbol{\phi}_k | \boldsymbol{\beta})
+ \log q(\boldsymbol{\phi}_k)
\Bigr)
d\boldsymbol{\phi}_k
\\
&= \int \sum_{d=1}^M \sum_{i=1}^{n_d} \sum_{z_{d,i}}
q(z_{d,i})
q(\boldsymbol{\theta}_d)
q(\boldsymbol{\phi})
\log p(w_{d,i} | z_{d,i}, \boldsymbol{\phi})
p(z_{d,i} | \boldsymbol{\theta}_d)
d\boldsymbol{\phi} d\boldsymbol{\theta}_d
- \sum_{d=1}^M \sum_{i=1}^{n_d} \sum_{k=1}^K
q(z_{d,i} = k)
\log q(z_{d,i} = k) \\
&\qquad
- \sum_{d=1}^M \int
q(\boldsymbol{\theta}_d)
\log \frac{
q(\boldsymbol{\theta}_d)
}{
p(\boldsymbol{\theta}_d | \boldsymbol{\alpha})
}
d\boldsymbol{\theta}_d
- \sum_{k=1}^K \int
q(\boldsymbol{\phi}_k)
\log \frac{
q(\boldsymbol{\phi}_k)
}{
p(\boldsymbol{\phi}_k | \boldsymbol{\beta})
}
d\boldsymbol{\phi}_k
\\
&= \int \sum_{d=1}^M \sum_{i=1}^{n_d} \sum_{z_{d,i}}
q(z_{d,i})
q(\boldsymbol{\theta}_d)
q(\boldsymbol{\phi})
\log p(w_{d,i} | z_{d,i}, \boldsymbol{\phi})
p(z_{d,i} | \boldsymbol{\theta}_d)
d\boldsymbol{\phi} d\boldsymbol{\theta}_d
- \sum_{d=1}^M \sum_{i=1}^{n_d} \sum_{k=1}^K
q(z_{d,i} = k)
\log q(z_{d,i} = k) \\
&\qquad
- \sum_{d=1}^M
{\rm KL}[
q(\boldsymbol{\theta}_d) \parallel p(\boldsymbol{\theta}_d | \boldsymbol{\alpha})
]
- \sum_{k=1}^K
{\rm KL}[
q(\boldsymbol{\phi}_k) \parallel p(\boldsymbol{\phi}_k | \boldsymbol{\beta})
]
\tag{3.85}
\end{align}
$$
【途中式の途中式】
- $\log \frac{A}{B} = \log A - \log B$の変形を行う。
- 前の2つの因子は、式(3.84)より項を更に分解する。
- 後の2つの因子は、分母分子を入れ替えるために括弧から$-1$を外に出す。
- $- \log A + \log B = \log \frac{B}{A}$の変形を行う。
- KL情報量に置き換える。
以上で変分下限が求まった。次からは、この変分下限を最大にする近似事後分布を求めていく。
・トピック分布の近似事後分布の導出
変分下限$F[q(\boldsymbol{z}_{1:n}, \boldsymbol{\phi}, \boldsymbol{\pi})]$から、$q(\boldsymbol{\theta}_d)$に関係する項のみを取り出して$\tilde{F}[q(\boldsymbol{\theta}_d)]$とおく。
$$
\tilde{F}[q(\boldsymbol{\theta}_d)]
= \int
q(\boldsymbol{\theta}_d)
\sum_{\boldsymbol{z}}
q(\boldsymbol{z})
\sum_{i=1}^{n_d}
\log p(z_{d,i} | \boldsymbol{\theta}_d)
d\boldsymbol{\theta}_d
- \int
q(\boldsymbol{\theta}_d)
\log \frac{
q(\boldsymbol{\theta}_d)
}{
p(\boldsymbol{\theta}_d | \boldsymbol{\alpha})
}
d\boldsymbol{\theta}
\tag{3.86}
$$
$q(\boldsymbol{\theta}_d)$に関係する項を取り出したので、$d = 1, 2, \cdots, d - 1, d + 1, \cdots, D$については含まれない。(頭の$q(\boldsymbol{z})$はそのままなのは何故??)
$\tilde{F}[q(\boldsymbol{\theta}_d)] = \int f(\boldsymbol{\theta}_d, q(\boldsymbol{\theta}_d))d\boldsymbol{\theta}_d$とすると、$f(\boldsymbol{\theta}_d, q(\boldsymbol{\theta}_d))$は
$$
\begin{aligned}
f(\boldsymbol{\theta}_d, q(\boldsymbol{\theta}_d))
&= q(\boldsymbol{\theta}_d)
\sum_{\boldsymbol{z}}
q(\boldsymbol{z})
\sum_{i=1}^{n_d}
\log p(z_{d,i} | \boldsymbol{\theta}_d)
- q(\boldsymbol{\theta}_d)
\log \frac{
q(\boldsymbol{\theta}_d)
}{
p(\boldsymbol{\theta}_d | \boldsymbol{\alpha})
}
\\
&= q(\boldsymbol{\theta}_d)
\sum_{\boldsymbol{z}}
q(\boldsymbol{z})
\sum_{i=1}^{n_d}
\log p(z_{d,i} | \boldsymbol{\theta}_d)
- q(\boldsymbol{\theta}_d) \Bigl(
\log q(\boldsymbol{\theta}_d)
- \log p(\boldsymbol{\theta}_d | \boldsymbol{\alpha})
\Bigr)
\\
&= q(\boldsymbol{\theta}_d)
\sum_{\boldsymbol{z}}
q(\boldsymbol{z})
\sum_{i=1}^{n_d}
\log p(z_{d,i} | \boldsymbol{\theta}_d)
- q(\boldsymbol{\theta}_d)
\log q(\boldsymbol{\theta}_d)
+ q(\boldsymbol{\theta}_d)
\log p(\boldsymbol{\theta}_d | \boldsymbol{\alpha})
\end{aligned}
$$
である。この式を$q(\boldsymbol{\theta}_d)$に関して変分する。
$$
\begin{align}
\frac{
\partial f(\boldsymbol{\theta}_d, q(\boldsymbol{\theta}_d))
}{
\partial q(\boldsymbol{\theta}_d)
}
&= \sum_{\boldsymbol{z}}
q(\boldsymbol{z})
\sum_{i=1}^{n_d}
\log p(z_{d,i} | \boldsymbol{\theta}_d)
- \log q(\boldsymbol{\theta}_d)
- q(\boldsymbol{\theta}_d)
\frac{1}{q(\boldsymbol{\theta}_d)}
+ \log p(\boldsymbol{\theta}_d | \boldsymbol{\alpha})
\\
&= \sum_{\boldsymbol{z}}
q(\boldsymbol{z})
\sum_{i=1}^{n_d}
\log p(z_{d,i} | \boldsymbol{\theta}_d)
- \log q(\boldsymbol{\theta}_d)
+ \log p(\boldsymbol{\theta}_d | \boldsymbol{\alpha})
- 1
\tag{3.87}
\end{align}
$$
$\frac{\partial f(\boldsymbol{\theta}_d, q(\boldsymbol{\theta}_d))}{\partial q(\boldsymbol{\theta}_d)} = 0$となる$q(\boldsymbol{\theta}_d)$を求める。
$$
\begin{aligned}
\sum_{\boldsymbol{z}}
q(\boldsymbol{z})
\sum_{i=1}^{n_d}
\log p(z_{d,i} | \boldsymbol{\theta}_d)
&- \log q(\boldsymbol{\theta}_d)
+ \log p(\boldsymbol{\theta}_d | \boldsymbol{\alpha})
- 1
= 0
\\
\log q(\boldsymbol{\theta}_d)
&= \sum_{\boldsymbol{z}}
q(\boldsymbol{z})
\sum_{i=1}^{n_d}
\log p(z_{d,i} | \boldsymbol{\theta}_d)
+ \log p(\boldsymbol{\theta}_d | \boldsymbol{\alpha})
- 1
\\
q(\boldsymbol{\theta}_d)
&= \exp \left[
\sum_{\boldsymbol{z}}
q(\boldsymbol{z})
\sum_{i=1}^{n_d}
\log p(z_{d,i} | \boldsymbol{\theta}_d)
+ \log p(\boldsymbol{\theta}_d | \boldsymbol{\alpha})
- 1
\right]
\\
&\propto
\exp \left[
\sum_{\boldsymbol{z}}
q(\boldsymbol{z})
\sum_{i=1}^{n_d}
\log p(z_{d,i} | \boldsymbol{\theta}_d)
+ \log p(\boldsymbol{\theta}_d | \boldsymbol{\alpha})
\right]
\end{aligned}
$$
更に、正規化項を省いたDirichlet分布$p(\boldsymbol{\theta}_d | \boldsymbol{\alpha}) \propto \prod_{k=1}^K \theta_{d,k}^{\alpha_k-1}$を用いて
$$
\begin{align}
q(\boldsymbol{\theta}_d)
&\propto
\exp \left[
\sum_{\boldsymbol{z}}
q(\boldsymbol{z})
\sum_{i=1}^{n_d}
\log p(z_{d,i} | \boldsymbol{\theta}_d)
+ \log p(\boldsymbol{\theta}_d | \boldsymbol{\alpha})
\right]
\\
&\propto
\exp \left[
\sum_{\boldsymbol{z}}
q(\boldsymbol{z})
\sum_{i=1}^{n_d}
\log \prod_{k=1}^K
\theta_{d,k}^{\delta(z_{d,i} = k)}
+ \log \prod_{k=1}^K
\theta_{d,k}^{\alpha_k-1}
\right]
\\
&= \exp \left[
\sum_{\boldsymbol{z}}
q(\boldsymbol{z})
\sum_{i=1}^{n_d} \sum_{k=1}^K
\delta(z_{d,i} = k)
\log \theta_{d,k}
+ \sum_{k=1}^K
(\alpha_k - 1)
\log \theta_{d,k}
\right]
\\
&= \exp \left[
\sum_{k=1}^K
\mathbb{E}_{q(\boldsymbol{z})} [
n_{d,k}
]
\log \theta_{d,k}
+ \sum_{k=1}^K
(\alpha_k - 1)
\log \theta_{d,k}
\right]
\\
&= \exp \left[
\sum_{k=1}^K (
\mathbb{E}_{q(\boldsymbol{z})} [n_{d,k}]
+ \alpha_k - 1
)
\log \theta_{d,k}
\right]
\\
&= \prod_{k=1}^K
\theta_{d,k}^{
\mathbb{E}_{q(\boldsymbol{z})} [n_{d,k}]
+ \alpha_k - 1
}
\tag{3.88}
\end{align}
$$
となる。
ここで
$$
\xi_{d,k}^{\theta}
= \mathbb{E}_{q(\boldsymbol{z})} [n_{d,k}]
+ \alpha_k
\tag{3.89}
$$
とおくと式(3.88)から、$q(\boldsymbol{\theta}_d)$はパラメータ$\boldsymbol{\xi}_d^{\theta} = (\xi_{d,1}^{\theta}, \xi_{d,2}^{\theta}, \cdots, \xi_{d,K}^{\theta})$を持つ正規化項のないDirichlet分布の形をしていることが分かる。正規化すると
$$
q(\boldsymbol{\theta} | \boldsymbol{\xi}_d^{\theta})
= \frac{
\Gamma(\sum_{k=1}^K \xi_{d,k}^{\theta})
}{
\prod_{k=1}^K \xi_{d,k}^{\theta}
}
\prod_{k=1}^K
\theta_{d,k}^{\xi_{d,k}^{\theta}-1}
\tag{3.90}
$$
が得られる。
・単語分布の近似事後分布の導出
続いて、単語分布の近似事後分布を導出する。
トピック分布と同様に、変分下限$F[q(\boldsymbol{z}_{1:n}, \boldsymbol{\phi}, \boldsymbol{\pi})]$から$\boldsymbol{\phi}_k$に関係のある項のみ取り出して、$\tilde{F}[\boldsymbol{\phi}_k]$とおく。
ここで、変分下限の1つ目の因子は
$$
\begin{align}
&\int \sum_{d=1}^M \sum_{i=1}^{n_d} \sum_{z_{d,i}}
q(z_{d,i})
q(\boldsymbol{\theta}_d)
q(\boldsymbol{\phi})
\log p(w_{d,i} | z_{d,i}, \boldsymbol{\phi})
p(z_{d,i} | \boldsymbol{\theta}_d)
d\boldsymbol{\phi} d\boldsymbol{\theta}_d
\\
&= \int \sum_{d=1}^M \sum_{i=1}^{n_d} \sum_{z_{d,i}}
q(z_{d,i})
q(\boldsymbol{\theta}_d)
q(\boldsymbol{\phi})
\log p(w_{d,i} | \boldsymbol{\phi}_{z_{d,i}})
p(z_{d,i} | \boldsymbol{\theta}_d)
d\boldsymbol{\phi} d\boldsymbol{\theta}_d
\\
&= \int \sum_{d=1}^M \sum_{i=1}^{n_d} \sum_{z_{d,i}}
q(z_{d,i})
q(\boldsymbol{\theta}_d)
q(\boldsymbol{\phi})
\log \left(
\prod_{k=1}^K
p(w_{d,i} | \boldsymbol{\phi}_k)^{\delta(z_{d,i}=k)}
p(z_{d,i} | \boldsymbol{\theta}_d)
\right)
d\boldsymbol{\phi} d\boldsymbol{\theta}_d
\\
&= \int
q(\boldsymbol{\phi})
\sum_{d=1}^M \sum_{i=1}^{n_d} \sum_{z_{d,i}}
q(\boldsymbol{\theta}_d)
q(z_{d,i})
\sum_{k=1}^K
\delta(z_{d,i} = k)
\log p(w_{d,i} | \boldsymbol{\phi}_k)
p(z_{d,i} | \boldsymbol{\theta}_d)
d\boldsymbol{\phi} d\boldsymbol{\theta}_d
\\
&= \int
q(\boldsymbol{\phi})
\sum_{d=1}^M \sum_{i=1}^{n_d} \sum_{k=1}^K
q(\boldsymbol{\theta}_d)
q(z_{d,i} = k)
\log p(w_{d,i} | \boldsymbol{\phi}_k)
p(z_{d,i} | \boldsymbol{\theta}_d)
d\boldsymbol{\phi} d\boldsymbol{\theta}_d
\\
&= \int \sum_{k=1}^K
q(\boldsymbol{\phi}_k)
\sum_{d=1}^M \sum_{i=1}^{n_d}
q(\boldsymbol{\theta}_d)
q(z_{d,i} = k)
\log p(w_{d,i} | \boldsymbol{\phi}_k)
p(z_{d,i} | \boldsymbol{\theta}_d)
d\boldsymbol{\phi} d\boldsymbol{\theta}_d
\tag{3.91}
\end{align}
$$
である。(ちょっとよく解ってない…)
$$
\tilde{F}[\boldsymbol{\phi}_k]
= \int
q(\boldsymbol{\phi}_k)
\sum_{d=1}^M \sum_{i=1}^{n_d}
q(z_{d,i} = k)
\log p(w_{d,i} | \boldsymbol{\phi}_k)
d\boldsymbol{\phi}_k
- \int
q(\boldsymbol{\phi}_k)
\log \frac{
q(\boldsymbol{\phi}_k)
}{
p(\boldsymbol{\phi}_k | \boldsymbol{\beta})
}
d\boldsymbol{\phi}_k
\tag{3.92}
$$
$q(\boldsymbol{\phi}_k)$に関係する項を取り出したので、$k = 1, 2, \cdots, k - 1, k + 1, \cdots, K$については含まれない。
$\tilde{F}[\boldsymbol{\phi}_k] = \int f(\boldsymbol{\phi}_k, q(\boldsymbol{\phi}_k)) d\boldsymbol{\phi}_k$とすると
$$
\begin{aligned}
f(\boldsymbol{\phi}_k, q(\boldsymbol{\phi}_k))
&= q(\boldsymbol{\phi}_k)
\sum_{d=1}^M \sum_{i=1}^{n_d}
q(z_{d,i} = k)
\log p(w_{d,i} | \boldsymbol{\phi}_k)
- q(\boldsymbol{\phi}_k)
\log \frac{
q(\boldsymbol{\phi}_k)
}{
p(\boldsymbol{\phi}_k | \boldsymbol{\beta})
}
\\
&= q(\boldsymbol{\phi}_k)
\sum_{d=1}^M \sum_{i=1}^{n_d}
q(z_{d,i} = k)
\log p(w_{d,i} | \boldsymbol{\phi}_k)
- q(\boldsymbol{\phi}_k) \Bigl(
\log q(\boldsymbol{\phi}_k)
- \log p(\boldsymbol{\phi}_k | \boldsymbol{\beta})
\Bigr)
\\
&= q(\boldsymbol{\phi}_k)
\sum_{d=1}^M \sum_{i=1}^{n_d}
q(z_{d,i} = k)
\log p(w_{d,i} | \boldsymbol{\phi}_k)
- q(\boldsymbol{\phi}_k)
\log q(\boldsymbol{\phi}_k)
+ q(\boldsymbol{\phi}_k)
\log p(\boldsymbol{\phi}_k | \boldsymbol{\beta})
\end{aligned}
$$
である。
この式を$q(\boldsymbol{\phi}_k)$に関して変分する。
$$
\begin{align}
\frac{
\partial f(\boldsymbol{\phi}_k, q(\boldsymbol{\phi}_k))
}{
\partial q(\boldsymbol{\phi}_k)
}
&= \sum_{d=1}^M \sum_{i=1}^{n_d}
q(z_{d,i} = k)
\log p(w_{d,i} | \boldsymbol{\phi}_k)
- \log q(\boldsymbol{\phi}_k)
- q(\boldsymbol{\phi}_k)
\frac{1}{q(\boldsymbol{\phi}_k)}
+ \log p(\boldsymbol{\phi}_k | \boldsymbol{\beta})
\\
&= \sum_{d=1}^M \sum_{i=1}^{n_d}
q(z_{d,i} = k)
\log p(w_{d,i} | \boldsymbol{\phi}_k)
- \log q(\boldsymbol{\phi}_k)
+ \log p(\boldsymbol{\phi}_k | \boldsymbol{\beta})
- 1
\tag{3.93}
\end{align}
$$
$\frac{\partial f(\boldsymbol{\phi}_k, q(\boldsymbol{\phi}_k))}{\partial q(\boldsymbol{\phi}_k)} = 0$となる$q(\boldsymbol{\phi}_k)$を求める。
$$
\begin{aligned}
\sum_{d=1}^M \sum_{i=1}^{n_d}
q(z_{d,i} = k)
\log p(w_{d,i} | \boldsymbol{\phi}_k)
&- \log q(\boldsymbol{\phi}_k)
+ \log p(\boldsymbol{\phi}_k | \boldsymbol{\beta})
- 1
= 0
\\
\log q(\boldsymbol{\phi}_k)
&= \sum_{d=1}^M \sum_{i=1}^{n_d}
q(z_{d,i} = k)
\log p(w_{d,i} | \boldsymbol{\phi}_k)
+ \log p(\boldsymbol{\phi}_k | \boldsymbol{\beta})
- 1
\\
q(\boldsymbol{\phi}_k)
&= \exp \left[
\sum_{d=1}^M \sum_{i=1}^{n_d}
q(z_{d,i} = k)
\log p(w_{d,i} | \boldsymbol{\phi}_k)
+ \log p(\boldsymbol{\phi}_k | \boldsymbol{\beta})
- 1
\right]
\\
&\propto
\exp \left[
\sum_{d=1}^M \sum_{i=1}^{n_d}
q(z_{d,i} = k)
\log p(w_{d,i} | \boldsymbol{\phi}_k)
+ \log p(\boldsymbol{\phi}_k | \boldsymbol{\beta})
\right]
\end{aligned}
$$
更に、正規化項を省いたDirichlet分布$p(\boldsymbol{\phi}_k | \boldsymbol{\beta}) \propto \prod_{v=1}^V \phi_{k,v}^{\beta_v-1}$を用いて
$$
\begin{align}
q(\boldsymbol{\phi}_k)
&\propto
\exp \left[
\sum_{d=1}^M \sum_{i=1}^{n_d}
q(z_{d,i} = k)
\log p(w_{d,i} | \boldsymbol{\phi}_k)
+ \log p(\boldsymbol{\phi}_k | \boldsymbol{\beta})
\right]
\\
&\propto
\exp \left[
\sum_{d=1}^M \sum_{i=1}^{n_d}
q(z_{d,i} = k)
\log \prod_{v=1}^V
\phi_{k,v}^{\delta(w_{d,i} = v)}
+ \log \prod_{v=1}^V
\phi_{k,v}^{\beta_v-1}
\right]
\\
&= \exp \left[
\sum_{d=1}^M \sum_{i=1}^{n_d} \sum_{v=1}^V
q(z_{d,i} = k)
\delta(w_{d,i} = v)
\log \phi_{k,v}
+ \sum_{v=1}^V
(\beta_v - 1)
\log \phi_{k,v}
\right]
\\
&= \exp \left[
\sum_{v=1}^V
\mathbb{E}_{q(\boldsymbol{z})} [
n_{k,v}
]
\log \phi_{k,v}
+ \sum_{v=1}^V
(\beta_v - 1)
\log \phi_{k,v}
\right]
\\
&= \exp \left[
\sum_{v=1}^V (
\mathbb{E}_{q(\boldsymbol{z})} [n_{k,v}]
+ \beta_v - 1
)
\log \phi_{k,v}
\right]
\\
&= \prod_{v=1}^V
\phi_{k,v}^{\mathbb{E}_{q(\boldsymbol{z})}[n_{k,v}]+\beta_v-1}
\tag{3.94}
\end{align}
$$
となる。
ここで
$$
\xi_{k,v}^{\phi}
= \mathbb{E}_{q(\boldsymbol{z})}[n_{k,v}] + \beta_v
$$
とおくと式(3.94)から、$q(\boldsymbol{z})$はパラメータ$\boldsymbol{\xi}_k^{\phi} = (\xi_{k,1}^{\phi}, \xi_{k,2}^{\phi}, \cdots, \xi_{k,V}^{\phi})$を持つ正規化項のないDirichlet分布の形をしていることが分かる。正規化すると
$$
q(\boldsymbol{\phi}_k | \boldsymbol{\xi}_k^{\phi})
= \frac{
\Gamma(\sum_{v=1}^V \xi_{k,v}^{\phi})
}{
\prod_{v=1}^V \Gamma(\xi_{k,v}^{\phi})
}
\prod_{v=1}^V
\phi_{k,v}^{\xi_{k,v}^{\phi}-1}
\tag{3.96}
$$
が得られる。
・トピック集合の近似事後分布の導出
最後に、トピック集合の近似事後分布を求めていく。
これまでと同様に、変分下限$F[q(\boldsymbol{z}_{1:n}, \boldsymbol{\phi}, \boldsymbol{\pi})]$から$q(z_{d,i})$に関係する項のみ取り出して$\tilde{F}[q(z_{d,i})]$とする。
$$
\begin{align}
\tilde{F}[q(z_{d,i})]
&= \int \sum_{z_{d,i}}
q(z_{d,i})
q(\boldsymbol{\theta}_d)
q(\boldsymbol{\phi})
\log \Bigl(
p(w_{d,i} | z_{d,i}, \boldsymbol{\phi})
p(z_{d,i} | \boldsymbol{\theta}_d)
\Bigr)
d\boldsymbol{\phi} d\boldsymbol{\theta}_d
- \sum_{k=1}^K
q(z_{d,i} = k)
\log q(z_{d,i} = k)
\\
&= \sum_{k=1}^K
q(z_{d,i} = k)
\int
q(\boldsymbol{\phi}_k)
q(\boldsymbol{\theta}_d)
\log \Bigl(
p(w_{d,i} | \boldsymbol{\phi}_k)
p(z_{d,i} = k | \boldsymbol{\theta}_d)
\Bigr)
d\boldsymbol{\phi}_k d\boldsymbol{\theta}_d
- \sum_{k=1}^K
q(z_{d,i} = k)
\log q(z_{d,i} = k)
\\
&= \sum_{k=1}^K
q(z_{d,i} = k)
\int
q(\boldsymbol{\phi}_k)
q(\boldsymbol{\theta}_d)
\log (
\phi_{k,w_{d,i}}
\theta_{d,k}
)
d\boldsymbol{\phi}_k d\boldsymbol{\theta}_d
- \sum_{k=1}^K
q(z_{d,i} = k)
\log q(z_{d,i} = k)
\tag{3.97}
\end{align}
$$
$\tilde{F}[q(z_{d,i})]$を$q(z_{d,i} = k)$に関して変分する。
$$
\begin{align}
\frac{
\partial \tilde{F}[q(z_{d,i})]
}{
\partial q(z_{d,i} = k)
}
&= \int
q(\boldsymbol{\phi}_k)
q(\boldsymbol{\theta}_d)
\log (
\phi_{k,w_{d,i}}
\theta_{d,k}
)
d\boldsymbol{\phi}_k d\boldsymbol{\theta}_d
- \log q(z_{d,i} = k)
- q(z_{d,i} = k)
\frac{1}{q(z_{d,i} = k)}
\\
&= \int
q(\boldsymbol{\phi}_k)
q(\boldsymbol{\theta}_d)
\log (
\phi_{k,w_{d,i}}
\theta_{d,k}
)
d\boldsymbol{\phi}_k d\boldsymbol{\theta}_d
- \log q(z_{d,i} = k)
- 1
\tag{3.98}
\end{align}
$$
$\frac{\partial \tilde{F}[q(z_{d,i})]}{\partial q(z_{d,i} = k)} = 0$となる$q(z_{d,i} = k)$を求める。
$$
\begin{align}
\int
q(\boldsymbol{\phi}_k)
q(\boldsymbol{\theta}_d) \log (
\phi_{k,w_{d,i}}
\theta_{d,k}
)
d\boldsymbol{\phi}_k d\boldsymbol{\theta}_d
&- \log q(z_{d,i} = k)
- 1
= 0
\\
\log q(z_{d,i} = k)
&= \int
q(\boldsymbol{\phi}_k)
q(\boldsymbol{\theta}_d) \log (
\phi_{k,w_{d,i}}
\theta_{d,k}
)
d\boldsymbol{\phi}_k d\boldsymbol{\theta}_d
- 1
\\
q(z_{d,i} = k)
&= \exp \left[
\int
q(\boldsymbol{\phi}_k)
q(\boldsymbol{\theta}_d) \log (
\phi_{k,w_{d,i}}
\theta_{d,k}
)
d\boldsymbol{\phi}_k d\boldsymbol{\theta}_d
- 1
\right]
\\
&= \exp \left[
\int
q(\boldsymbol{\phi}_k)
q(\boldsymbol{\theta}_d) (
\log \phi_{k,w_{d,i}}
+ \log \theta_{d,k}
)
d\boldsymbol{\phi}_k d\boldsymbol{\theta}_d
- 1
\right]
\\
&= \exp \left[
\int
q(\boldsymbol{\theta}_d)
d\boldsymbol{\theta}_d
\int
q(\boldsymbol{\phi}_k)
\log \phi_{k,w_{d,i}}
d\boldsymbol{\phi}_k
+ \int
q(\boldsymbol{\phi}_k)
d\boldsymbol{\phi}_k
\int
q(\boldsymbol{\theta}_d)
\log \theta_{d,k}
d\boldsymbol{\theta}_d
- 1
\right]
\\
&\propto
\exp \left[
\int
q(\boldsymbol{\phi}_k)
\log \phi_{k,w_{d,i}}
d\boldsymbol{\phi}_k
\right]
\exp \left[
\int
q(\boldsymbol{\theta}_d)
\log \theta_{d,k}
d\boldsymbol{\theta}_d
\right]
\\
&= \exp \left[
\mathbb{E}_{q(\boldsymbol{\phi}_k)} [
\log \phi_{k,w_{d,i}}
]
\right]
\exp \left[
\mathbb{E}_{q(\boldsymbol{\theta}_d)} [
\log \theta_{d,k}
]
\right]
\end{align}
$$
更に、先ほど得られた
$$
\begin{aligned}
q(\boldsymbol{\phi}_k)
&\propto
q(\boldsymbol{\phi}_k | \boldsymbol{\xi}_k^{\phi})
\\
q(\boldsymbol{\theta}_d)
&\propto
q(\boldsymbol{\theta}_d | \boldsymbol{\xi}_k^{\theta})
\end{aligned}
$$
の関係と期待値計算式(3.79)を用いて
$$
\begin{align}
q(z_{d,i} = k)
&\propto
\exp \left[
\mathbb{E}_{q(\boldsymbol{\phi}_k)} [
\log \phi_{k,w_{d,i}}
]
\right]
\exp \left[
\mathbb{E}_{q(\boldsymbol{\theta}_d)} [
\log \theta_{d,k}
]
\right]
\\
&\propto
\exp \left[
\mathbb{E}_{q(\boldsymbol{\phi}_k | \boldsymbol{\xi}_k^{\phi})} [
\log \phi_{k,w_{d,i}}
]
\right]
\exp \left[
\mathbb{E}_{q(\boldsymbol{\theta}_d | \boldsymbol{\xi}_k^{\theta})} [
\log \theta_{d,k}
]
\right]
\\
&= \exp \left[
\Psi(
\xi_{k,w_{d,i}}^{\phi}
)
- \Psi \left(
\sum_{v'=1}^V \xi_{k,v'}^{\theta}
\right)
\right]
\exp \left[
\Psi(
\xi_{d,k}^{\theta}
)
- \Psi \left(
\sum_{k'=1}^K \xi_{d,k'}^{\theta}
\right)
\right]
\\
&= \exp \left[
\Psi(
\xi_{k,w_{d,i}}^{\phi}
)
\right]
\frac{
1
}{
\exp \left[
\Psi \left(
\sum_{v'=1}^V \xi_{k,v'}^{\theta}
\right)
\right]
}
\exp \left[
\Psi(
\xi_{d,k}^{\theta}
)
\right]
\frac{
1
}{
\exp \left[
\Psi \left(
\sum_{k'=1}^K \xi_{d,k'}^{\theta}
\right)
\right]
}
\\
&= \frac{
\exp \left[
\Psi(
\xi_{k,w_{d,i}}^{\phi}
)
\right]
}{
\exp \left[
\Psi \left(
\sum_{v'=1}^V \xi_{k,v'}^{\theta}
\right)
\right]
}
\frac{
\exp \left[
\Psi(
\xi_{d,k}^{\theta}
)
\right]
}{
\exp \left[
\Psi \left(
\sum_{k'=1}^K \xi_{d,k'}^{\theta}
\right)
\right]
}
\tag{3.99}
\end{align}
$$
が得られる。
参考文献
- 佐藤一誠『トピックモデルによる統計的潜在意味解析』(自然言語処理シリーズ 8)奥村学監修,コロナ社,2015年.
おわりに
まだ青本でやった内容なので分かるぞ。
【次節の内容】
www.anarchive-beta.com