はじめに
『トピックモデルによる統計的潜在意味解析』の学習時のメモです。基本的な内容は、数式の行間を読んで埋めたものになります。本と併せて読んでください。
この記事では、3.3.8節の$\boldsymbol{\theta}_d, \boldsymbol{\phi}_k$を周辺化した周辺化変分ベイズ法について書いています。
数学よく解らない自分が理解できるレベルまで落として数式を書き下していますので、分かる人にはかなりくどいです。
【実装編】
www.anarchive-beta.com
【前節の内容】
www.anarchive-beta.com
【他の節一覧】
www.anarchive-beta.com
【この節の内容】
3.3.8 LDAの周辺化変分ベイズ法
$\boldsymbol{\theta}_d, \boldsymbol{\phi}_k$を周辺化した周辺化変分ベイズ法について説明する。
$\boldsymbol{\theta}_d, \boldsymbol{\phi}_k$を周辺化した
$$
p(\boldsymbol{w}, \boldsymbol{z} | \boldsymbol{\alpha}, \boldsymbol{\beta})
= \int
p(\boldsymbol{w}, \boldsymbol{z}, \boldsymbol{\theta}, \boldsymbol{\phi} | \boldsymbol{\alpha}, \boldsymbol{\beta})
d\boldsymbol{\theta} d\boldsymbol{\phi}
$$
を用いる。
・変分下限の導出
$$
\begin{align}
\log p(\boldsymbol{w} | \boldsymbol{\alpha}, \boldsymbol{\beta})
&= \log \sum_{\boldsymbol{z}}
p(\boldsymbol{w}, \boldsymbol{z} | \boldsymbol{\alpha}, \boldsymbol{\beta})
\\
&= \log \sum_{\boldsymbol{z}}
q(\boldsymbol{z})
\frac{
p(\boldsymbol{w}, \boldsymbol{z} | \boldsymbol{\alpha}, \boldsymbol{\beta})
}{
q(\boldsymbol{z})
}
\\
&\geq
\sum_{\boldsymbol{z}}
q(\boldsymbol{z})
\log \frac{
p(\boldsymbol{w}, \boldsymbol{z} | \boldsymbol{\alpha}, \boldsymbol{\beta})
}{
q(\boldsymbol{z})
}
\equiv F_{\rm CVB}[q(\boldsymbol{z})]
\tag{3.111}
\end{align}
$$
この周辺化変分ベイズ法の変分下限$F_{\rm CVB}[q(\boldsymbol{z})]$と変分ベイズ法の変分下限(3.82)との関係を見る。
$$
F[q(\boldsymbol{z}, \boldsymbol{\theta}, \boldsymbol{\phi})]
= \int \sum_{\boldsymbol{z}}
q(\boldsymbol{z}, \boldsymbol{\theta}, \boldsymbol{\phi})
\log \frac{
p(\boldsymbol{w}, \boldsymbol{z}, \boldsymbol{\phi}, \boldsymbol{\theta} | \boldsymbol{\alpha}, \boldsymbol{\beta})
}{
q(\boldsymbol{z}, \boldsymbol{\theta}, \boldsymbol{\phi})
}
d\boldsymbol{\phi} d\boldsymbol{\theta}
\tag{3.82}
$$
$p(\boldsymbol{w}, \boldsymbol{z}, \boldsymbol{\phi}, \boldsymbol{\theta} | \boldsymbol{\alpha}, \boldsymbol{\beta}) = p(\boldsymbol{\phi}, \boldsymbol{\theta} | \boldsymbol{w}, \boldsymbol{z}, \boldsymbol{\alpha}, \boldsymbol{\beta}) p(\boldsymbol{w}, \boldsymbol{z} | \boldsymbol{\alpha}, \boldsymbol{\beta})$、$q(\boldsymbol{z}, \boldsymbol{\theta}, \boldsymbol{\phi}) = q(\boldsymbol{\theta}, \boldsymbol{\phi} | \boldsymbol{z}) q(\boldsymbol{z})$より
$$
\begin{align}
F[
q(\boldsymbol{\theta}, \boldsymbol{\phi} | \boldsymbol{z})
q(\boldsymbol{z})
]
&= \int \sum_{\boldsymbol{z}}
q(\boldsymbol{\theta}, \boldsymbol{\phi} | \boldsymbol{z})
q(\boldsymbol{z})
\log \frac{
p(\boldsymbol{\phi}, \boldsymbol{\theta} | \boldsymbol{w}, \boldsymbol{z}, \boldsymbol{\alpha}, \boldsymbol{\beta})
p(\boldsymbol{w}, \boldsymbol{z} | \boldsymbol{\alpha}, \boldsymbol{\beta})
}{
q(\boldsymbol{\theta}, \boldsymbol{\phi} | \boldsymbol{z})
q(\boldsymbol{z})
}
d\boldsymbol{\phi} d\boldsymbol{\theta}
\\
&= \int \sum_{\boldsymbol{z}}
q(\boldsymbol{\theta}, \boldsymbol{\phi} | \boldsymbol{z})
q(\boldsymbol{z}) \left(
\log \frac{
p(\boldsymbol{\phi}, \boldsymbol{\theta} | \boldsymbol{w}, \boldsymbol{z}, \boldsymbol{\alpha}, \boldsymbol{\beta})
}{
q(\boldsymbol{\theta}, \boldsymbol{\phi} | \boldsymbol{z})
}
+ \log \frac{
p(\boldsymbol{w}, \boldsymbol{z} | \boldsymbol{\alpha}, \boldsymbol{\beta})
}{
q(\boldsymbol{z})
}
\right)
d\boldsymbol{\phi} d\boldsymbol{\theta}
\\
&= \int \sum_{\boldsymbol{z}}
q(\boldsymbol{\theta}, \boldsymbol{\phi} | \boldsymbol{z})
q(\boldsymbol{z})
\log \frac{
p(\boldsymbol{\phi}, \boldsymbol{\theta} | \boldsymbol{w}, \boldsymbol{z}, \boldsymbol{\alpha}, \boldsymbol{\beta})
}{
q(\boldsymbol{\theta}, \boldsymbol{\phi} | \boldsymbol{z})
}
d\boldsymbol{\phi} d\boldsymbol{\theta}
+ \sum_{\boldsymbol{z}}
q(\boldsymbol{z})
\log \frac{
p(\boldsymbol{w}, \boldsymbol{z} | \boldsymbol{\alpha}, \boldsymbol{\beta})
}{
q(\boldsymbol{z})
}
\tag{3.114}
\end{align}
$$
となる。
$q(\boldsymbol{\theta}, \boldsymbol{\phi} | \boldsymbol{z}) = p(\boldsymbol{\phi}, \boldsymbol{\theta} | \boldsymbol{w}, \boldsymbol{z}, \boldsymbol{\alpha}, \boldsymbol{\beta})$(完全に$\boldsymbol{\theta}, \boldsymbol{\phi}$を推定できた)とすると($\log 1 = 0$より)
$$
\begin{align}
F[
p(\boldsymbol{\phi}, \boldsymbol{\theta} | \boldsymbol{w}, \boldsymbol{z}, \boldsymbol{\alpha}, \boldsymbol{\beta})
q(\boldsymbol{z})
]
&= \int \sum_{\boldsymbol{z}}
p(\boldsymbol{\phi}, \boldsymbol{\theta} | \boldsymbol{w}, \boldsymbol{z}, \boldsymbol{\alpha}, \boldsymbol{\beta})
q(\boldsymbol{z})
\log \frac{
p(\boldsymbol{\phi}, \boldsymbol{\theta} | \boldsymbol{w}, \boldsymbol{z}, \boldsymbol{\alpha}, \boldsymbol{\beta})
}{
p(\boldsymbol{\phi}, \boldsymbol{\theta} | \boldsymbol{w}, \boldsymbol{z}, \boldsymbol{\alpha}, \boldsymbol{\beta})
}
d\boldsymbol{\phi} d\boldsymbol{\theta}
+ \sum_{\boldsymbol{z}}
q(\boldsymbol{z})
\log \frac{
p(\boldsymbol{w}, \boldsymbol{z} | \boldsymbol{\alpha}, \boldsymbol{\beta})
}{
q(\boldsymbol{z})
}
\\
&= \sum_{\boldsymbol{z}}
q(\boldsymbol{z})
\log \frac{
p(\boldsymbol{w}, \boldsymbol{z} | \boldsymbol{\alpha}, \boldsymbol{\beta})
}{
q(\boldsymbol{z})
}
= F_{\rm CVB}[q(\boldsymbol{z})]
\tag{3.115}
\end{align}
$$
$F_{\rm CVB}[q(\boldsymbol{z})]$と等しくなる。従って
$$
F[q(\boldsymbol{z}, \boldsymbol{\theta}, \boldsymbol{\phi})]
=
F[
q(\boldsymbol{\theta}, \boldsymbol{\phi} | \boldsymbol{z})
q(\boldsymbol{z})
]
\leq
F[
p(\boldsymbol{\phi}, \boldsymbol{\theta} | \boldsymbol{w}, \boldsymbol{z}, \boldsymbol{\alpha}, \boldsymbol{\beta})
q(\boldsymbol{z})
]
=
F_{\rm CVB}[q(\boldsymbol{z})]
\tag{3.116}
$$
という関係が分かる。
・潜在トピックの近似事後分布の導出
変分下限から$q(z_{d,i})$に関係する項を取り出して$\tilde{F}[q(z_{d,i})]$とおく。
ここで
$$
\begin{aligned}
p(\boldsymbol{w}, \boldsymbol{z} | \boldsymbol{\alpha}, \boldsymbol{\beta})
&= p(w_{d,i}, z_{d,i}, \boldsymbol{w}^{\backslash d,i}, \boldsymbol{z}^{\backslash d,i} | \boldsymbol{\alpha}, \boldsymbol{\beta})
\\
&= p(w_{d,i}, z_{d,i} | \boldsymbol{w}^{\backslash d,i}, \boldsymbol{z}^{\backslash d,i}, \boldsymbol{\alpha}, \boldsymbol{\beta})
p(\boldsymbol{w}^{\backslash d,i}, \boldsymbol{z}^{\backslash d,i} | \boldsymbol{\alpha}, \boldsymbol{\beta})
\end{aligned}
$$
である。
$$
\begin{align}
\tilde{F}[q(z_{d,i})]
&= \sum_{\boldsymbol{z}}
q(z_{d,i})
q(\boldsymbol{z}^{\backslash d,i})
\log \frac{
p(w_{d,i}, z_{d,i} | \boldsymbol{w}^{\backslash d,i}, \boldsymbol{z}^{\backslash d,i}, \boldsymbol{\alpha}, \boldsymbol{\beta})
}{
q(z_{d,i})
}
\tag{3.118}\\
&= \sum_{\boldsymbol{z}}
q(z_{d,i})
q(\boldsymbol{z}^{\backslash d,i}) \Bigl(
\log p(w_{d,i}, z_{d,i} | \boldsymbol{w}^{\backslash d,i}, \boldsymbol{z}^{\backslash d,i}, \boldsymbol{\alpha}, \boldsymbol{\beta})
- \log q(z_{d,i})
\Bigr)
\\
&= \sum_{\boldsymbol{z}}
q(z_{d,i})
q(\boldsymbol{z}^{\backslash d,i})
\log p(w_{d,i}, z_{d,i} | \boldsymbol{w}^{\backslash d,i}, \boldsymbol{z}^{\backslash d,i}, \boldsymbol{\alpha}, \boldsymbol{\beta})
- \sum_{z_{d,i}}
q(z_{d,i})
\log q(z_{d,i})
\end{align}
$$
この式を$q(z_{d,i} = k)$で微分する。
$$
\begin{aligned}
\frac{\partial \tilde{F}[q(z_{d,i} = k)]}{\partial q(z_{d,i} = k)}
&= \sum_{\boldsymbol{z}}
q(\boldsymbol{z}^{\backslash d,i})
\log p(w_{d,i} = v, z_{d,i} = k | \boldsymbol{w}^{\backslash d,i}, \boldsymbol{z}^{\backslash d,i}, \boldsymbol{\alpha}, \boldsymbol{\beta})
- \log q(z_{d,i} = k)
- q(z_{d,i} = k)
\frac{1}{q(z_{d,i} = k)}
\\
&= \sum_{\boldsymbol{z}}
q(\boldsymbol{z}^{\backslash d,i})
\log p(w_{d,i} = v, z_{d,i} = k | \boldsymbol{w}^{\backslash d,i}, \boldsymbol{z}^{\backslash d,i}, \boldsymbol{\alpha}, \boldsymbol{\beta})
- \log q(z_{d,i} = k)
- 1
\end{aligned}
$$
$\frac{\partial \tilde{F}[q(z_{d,i} = k)]}{\partial q(z_{d,i} = k)} = 0$となる$q(z_{d,i} = k)$を求める。
$$
\begin{aligned}
\sum_{\boldsymbol{z}}
q(\boldsymbol{z}^{\backslash d,i})
\log p(w_{d,i} = v, z_{d,i} = k | \boldsymbol{w}^{\backslash d,i}, \boldsymbol{z}^{\backslash d,i}, \boldsymbol{\alpha}, \boldsymbol{\beta})
&- \log q(z_{d,i} = k)
- 1
= 0
\\
\log q(z_{d,i} = k)
&= \sum_{\boldsymbol{z}}
q(\boldsymbol{z}^{\backslash d,i})
\log p(w_{d,i} = v, z_{d,i} = k | \boldsymbol{w}^{\backslash d,i}, \boldsymbol{z}^{\backslash d,i}, \boldsymbol{\alpha}, \boldsymbol{\beta})
- 1
\\
q(z_{d,i} = k)
&= \exp \left[
\sum_{\boldsymbol{z}}
q(\boldsymbol{z}^{\backslash d,i})
\log p(w_{d,i} = v, z_{d,i} = k | \boldsymbol{w}^{\backslash d,i}, \boldsymbol{z}^{\backslash d,i}, \boldsymbol{\alpha}, \boldsymbol{\beta})
- 1
\right]
\\
&\propto
\exp \left[
\sum_{\boldsymbol{z}}
q(\boldsymbol{z}^{\backslash d,i})
\log p(w_{d,i} = v, z_{d,i} = k | \boldsymbol{w}^{\backslash d,i}, \boldsymbol{z}^{\backslash d,i}, \boldsymbol{\alpha}, \boldsymbol{\beta})
\right]
\\
&= \exp \mathbb{E}_{q(\boldsymbol{z}^{\backslash d,i})} \left[
\log p(w_{d,i} = v, z_{d,i} = k | \boldsymbol{w}^{\backslash d,i}, \boldsymbol{z}^{\backslash d,i}, \boldsymbol{\alpha}, \boldsymbol{\beta})
\right]
\end{aligned}
$$
ここで、式(3.38)の計算過程より
$$
\begin{align}
p(w_{d,i} = v, z_{d,i} = k | \boldsymbol{w}^{\backslash d,i}, \boldsymbol{z}^{\backslash d,i}, \boldsymbol{\alpha}, \boldsymbol{\beta})
&= p(w_{d,i} = v | z_{d,i} = k, \boldsymbol{w}^{\backslash d,i}, \boldsymbol{z}^{\backslash d,i}, \boldsymbol{\alpha}, \boldsymbol{\beta})
p(z_{d,i} = k | \boldsymbol{w}^{\backslash d,i}, \boldsymbol{z}^{\backslash d,i}, \boldsymbol{\alpha}, \boldsymbol{\beta})
\\
&= \frac{
n_{k,v}^{\backslash d,i}
+ \beta_v
}{
\sum_{v'=1}^V
n_{k,v'}^{\backslash d,i}
+ \beta_{v'}
}
\frac{
n_{d,k}^{\backslash d,i}
+ \alpha_k
}{
n_d^{\backslash d,i}
+ \sum_{k'=1}^K \alpha_{k'}
}
\tag{3.38}
\end{align}
$$
である。
よって
$$
\begin{align}
q(z_{d,i} = k)
&\propto
\exp \mathbb{E}_{q(\boldsymbol{z}^{\backslash d,i})} \left[
\log p(w_{d,i} = v, z_{d,i} = k | \boldsymbol{w}^{\backslash d,i}, \boldsymbol{z}^{\backslash d,i}, \boldsymbol{\alpha}, \boldsymbol{\beta})
\right]
\\
&= \exp \mathbb{E}_{q(\boldsymbol{z}^{\backslash d,i})} \left[
\log \frac{
n_{k,v}^{\backslash d,i}
+ \beta_v
}{
\sum_{v'=1}^V
n_{k,v'}^{\backslash d,i}
+ \beta_{v'}
}
\frac{
n_{d,k}^{\backslash d,i}
+ \alpha_k
}{
n_d^{\backslash d,i}
+ \sum_{k'=1}^K \alpha_{k'}
}
\right]
\\
&\propto
\exp \mathbb{E}_{q(\boldsymbol{z}^{\backslash d,i})} \left[
\log \frac{
n_{k,v}^{\backslash d,i}
+ \beta_v
}{
\sum_{v'=1}^V
n_{k,v'}^{\backslash d,i}
+ \beta_{v'}
} (
n_{d,k}^{\backslash d,i}
+ \alpha_k
)
\right]
\\
&= \exp \mathbb{E}_{q(\boldsymbol{z}^{\backslash d,i})} \left[
\log(
n_{k,v}^{\backslash d,i}
+ \beta_v
)
- \log(
\sum_{v'=1}^V
n_{k,v'}^{\backslash d,i}
+ \beta_{v'}
)
+ \log(
n_{d,k}^{\backslash d,i}
+ \alpha_k
)
\right]
\\
&= \exp \mathbb{E}_{q(\boldsymbol{z}^{\backslash d,i})} \left[
\log(
n_{k,v}^{\backslash d,i}
+ \beta_v
)
\right]
\frac{
1
}{
\exp \mathbb{E}_{q(\boldsymbol{z}^{\backslash d,i})} \left[
\log(
\sum_{v'=1}^V
n_{k,v'}^{\backslash d,i}
+ \beta_{v'}
)
\right]
}
\exp \mathbb{E}_{q(\boldsymbol{z}^{\backslash d,i})} \left[
\log(
n_{d,k}^{\backslash d,i}
+ \alpha_k
)
\right]
\\
&= \frac{
\exp \mathbb{E}_{q(\boldsymbol{z}^{\backslash d,i})} \left[
\log(
n_{k,v}^{\backslash d,i}
+ \beta_v
)
\right]
}{
\exp \mathbb{E}_{q(\boldsymbol{z}^{\backslash d,i})} \left[
\log(
\sum_{v'=1}^V
n_{k,v'}^{\backslash d,i}
+ \beta_{v'}
)
\right]
}
\exp \mathbb{E}_{q(\boldsymbol{z}^{\backslash d,i})} \left[
\log(
n_{d,k}^{\backslash d,i}
+ \alpha_k
)
\right]
\tag{3.120}
\end{align}
$$
が得られる。
しかしこの式には解析的に積分できない項があるため、近似計算を行うことにする。
・テイラー展開による近似
テイラー展開を用いて近似を考える。
・テイラー展開
対数関数$\log x$をaの周りで2次までテイラー展開すると
$$
\log x
\approx
\log a
+ \frac{1}{a}
(x - a)
- \frac{1}{2 a^2}
(x - a)^2
\tag{3.121}
$$
である。これを$a = \mathbb{E}[x]$として、更に全体の期待値をとると
$$
\begin{align}
\mathbb{E}[\log x]
&\approx
\mathbb{E} \left[
\log \mathbb{E}[x]
+ \frac{1}{\mathbb{E}[x]}
(x - \mathbb{E}[x])
- \frac{1}{2 \mathbb{E}[x]^2}
(x - \mathbb{E}[x])^2
\right]
\\
&= \mathbb{E} \Bigl[
\log \mathbb{E}[x]
\Bigr]
+ \mathbb{E} \left[
\frac{1}{\mathbb{E}[x]}
(x - \mathbb{E}[x])
\right]
- \mathbb{E} \left[
\frac{1}{2 \mathbb{E}[x]^2}
(x - \mathbb{E}[x])^2
\right]
\\
&= \log \mathbb{E}[x]
+ \frac{1}{\mathbb{E}[x]}
(\mathbb{E}[x] - \mathbb{E}[x])
- \frac{1}{2 \mathbb{E}[x]^2}
\mathbb{E} \Bigl[
(x - \mathbb{E}[x])^2
\Bigr]
\\
&= \log \mathbb{E}[x]
- \frac{
\mathbb{V}[x]
}{
2 \mathbb{E}[x]^2
}
\tag{3.122}
\end{align}
$$
になる。また、$\log(x + b)$に対して$a = \mathbb{E}[x] + b$とすると
$$
\begin{align}
\mathbb{E}[\log(x + b)]
&\approx
\mathbb{E} \left[
\log (
\mathbb{E}[x] + b
)
+ \frac{1}{\mathbb{E}[x] + b} \{
x + b
- (\mathbb{E}[x] + b)
\}
- \frac{1}{2 (\mathbb{E}[x] + b)^2} \{
x + b
- (\mathbb{E}[x] + b)
\}^2
\right]
\\
&= \mathbb{E} \Bigl[
\log (
\mathbb{E}[x] + b
)
\Bigr]
+ \mathbb{E} \left[
\frac{1}{\mathbb{E}[x] + b}
(x - \mathbb{E}[x])
\right]
- \mathbb{E} \left[
\frac{1}{2 (\mathbb{E}[x] + b)^2}
(x - \mathbb{E}[x])^2
\right]
\\
&= \log (
\mathbb{E}[x] + b
)
+ \frac{1}{\mathbb{E}[x] + b}
(\mathbb{E}[x] - \mathbb{E}[x])
- \frac{1}{2 (\mathbb{E}[x] + b)^2}
\mathbb{E} \Bigl[
(x - \mathbb{E}[x])^2
\Bigr]
\\
&= \log (
\mathbb{E}[x] + b
)
- \frac{
\mathbb{V}[x]
}{
2
(\mathbb{E}[x] + b)^2
}
\tag{3.122'}
\end{align}
$$
になる。
式(3.122')を用いて、式(3.120)を近似していく。
まずは、分子の項$\log(n_{k,v}^{\backslash d,i} + \beta_v)$を$\mathbb{E}[n_{k,v}^{\backslash d,i}] + \beta_v$の周りでテイラー展開する。
$$
\mathbb{E}_{q(\boldsymbol{z}^{\backslash d,i})} \left[
\log(
n_{k,v}^{\backslash d,i}
+ \beta_v
)
\right]
\approx
\log (
\mathbb{E}[
n_{k,v}^{\backslash d,i}
]
+ \beta_v
)
- \frac{
\mathbb{V}[
n_{k,v}^{\backslash d,i}
]
}{
2 (
\mathbb{E}[
n_{k,v}^{\backslash d,i}
]
+ \beta_v
)^2
}
$$
次に、分母の項$\sum_{v=1}^V \log(n_{k,v}^{\backslash d,i} + \beta_v) = \log(n_{k,\cdot}^{\backslash d,i} + \beta_{\cdot})$を$\mathbb{E}[n_{k,\cdot}^{\backslash d,i}] + \beta_{\cdot}$の周りでテイラー展開する。
$$
\mathbb{E}_{q(\boldsymbol{z}^{\backslash d,i})} \left[
\log(
n_{k,\cdot}^{\backslash d,i}
+ \beta_{\cdot}
)
\right]
\approx
\log (
\mathbb{E}[
n_{k,\cdot}^{\backslash d,i}
]
+ \beta_{\cdot}
)
- \frac{
\mathbb{V}[
n_{k,\cdot}^{\backslash d,i}
]
}{
2 (
\mathbb{E}[
n_{k,\cdot}^{\backslash d,i}
]
+ \beta_{\cdot}
)^2
}
$$
最後に、後の項$\log(n_{d,k}^{\backslash d,i} + \alpha_k)$を$\mathbb{E}[n_{d,k}^{\backslash d,i}] + \alpha_k$の周りでテイラー展開する。
$$
\mathbb{E}_{q(\boldsymbol{z}^{\backslash d,i})} \left[
\log(
n_{d,k}^{\backslash d,i}
+ \alpha_k
)
\right]
\approx
\log (
\mathbb{E}[
n_{d,k}^{\backslash d,i}
]
+ \alpha_k
)
- \frac{
\mathbb{V}[
n_{d,k}^{\backslash d,i}
]
}{
2 (
\mathbb{E}[
n_{d,k}^{\backslash d,i}
]
+ \alpha_k
)^2
}
\tag{3.123}
$$
これらを式(3.120)に代入すると
$$
\begin{align}
q(z_{d,i} = k)
&\propto
\frac{
\exp \mathbb{E}_{q(\boldsymbol{z}^{\backslash d,i})} \left[
\log(
n_{k,v}^{\backslash d,i}
+ \beta_v
)
\right]
}{
\exp \mathbb{E}_{q(\boldsymbol{z}^{\backslash d,i})} \left[
\log(
\sum_{v'=1}^V
n_{k,v'}^{\backslash d,i}
+ \beta_{v'}
)
\right]
}
\exp \mathbb{E}_{q(\boldsymbol{z}^{\backslash d,i})} \left[
\log(
n_{d,k}^{\backslash d,i}
+ \alpha_k
)
\right]
\tag{3.120}
\\
&\approx
\frac{
\exp \left[
\log (
\mathbb{E}[
n_{k,v}^{\backslash d,i}
]
+ \beta_v
)
- \frac{
\mathbb{V}[
n_{k,v}^{\backslash d,i}
]
}{
2 (
\mathbb{E}[
n_{k,v}^{\backslash d,i}
]
+ \beta_v
)^2
}
\right]
}{
\exp \left[
\log (
\mathbb{E}[
n_{k,\cdot}^{\backslash d,i}
]
+ \beta_{\cdot}
)
- \frac{
\mathbb{V}[
n_{k,\cdot}^{\backslash d,i}
]
}{
2 (
\mathbb{E}[
n_{k,\cdot}^{\backslash d,i}
]
+ \beta_{\cdot}
)^2
}
\right]
}
\exp \left[
\log (
\mathbb{E}[
n_{d,k}^{\backslash d,i}
]
+ \alpha_k
)
- \frac{
\mathbb{V}[
n_{d,k}^{\backslash d,i}
]
}{
2 (
\mathbb{E}[
n_{d,k}^{\backslash d,i}
]
+ \alpha_k
)^2
}
\right]
\\
&= \frac{
\exp \left[
\log (
\mathbb{E}[
n_{k,v}^{\backslash d,i}
]
+ \beta_v
)
\right]
}{
\exp \left[
\log (
\mathbb{E}[
n_{k,\cdot}^{\backslash d,i}
]
+ \beta_{\cdot}
)
\right]
}
\exp \left[
\log (
\mathbb{E}[
n_{d,k}^{\backslash d,i}
]
+ \alpha_k
)
\right] \\
&\qquad
* \exp \left[
- \frac{
\mathbb{V}[
n_{k,v}^{\backslash d,i}
]
}{
2 (
\mathbb{E}[
n_{k,v}^{\backslash d,i}
]
+ \beta_v
)^2
}
\right]
\exp \left[
- \frac{
\mathbb{V}[
n_{d,k}^{\backslash d,i}
]
}{
2 (
\mathbb{E}[
n_{d,k}^{\backslash d,i}
]
+ \alpha_k
)^2
}
\right]
\exp \left[
- \frac{
2 (
\mathbb{E}[
n_{k,\cdot}^{\backslash d,i}
]
+ \beta_{\cdot}
)^2
}{
\mathbb{V}[
n_{k,\cdot}^{\backslash d,i}
]
}
\right]
\\
&= \frac{
\mathbb{E}[
n_{k,v}^{\backslash d,i}
]
+ \beta_v
}{
\mathbb{E}[
n_{k,\cdot}^{\backslash d,i}
]
+ \beta_{\cdot}
}
(
\mathbb{E}[
n_{d,k}^{\backslash d,i}
]
+ \alpha_k
) \\
&\qquad
* \exp \left[
- \frac{
\mathbb{V}[
n_{k,v}^{\backslash d,i}
]
}{
2 (
\mathbb{E}[
n_{k,v}^{\backslash d,i}
]
+ \beta_v
)^2
}
- \frac{
\mathbb{V}[
n_{d,k}^{\backslash d,i}
]
}{
2 (
\mathbb{E}[
n_{d,k}^{\backslash d,i}
]
+ \alpha_k
)^2
}
\right]
\exp \left[
\frac{
\mathbb{V}[
n_{k,\cdot}^{\backslash d,i}
]
}{
2 (
\mathbb{E}[
n_{k,\cdot}^{\backslash d,i}
]
+ \beta_{\cdot}
)^2
}
\right]
\tag{3.130}
\end{align}
$$
が得られる。
ここで、$n_{d,k}$は文書dにおいて潜在トピックにkが割り当てられた単語数である。また、文書dの単語iの潜在トピック$z_{d,i}$にkを割り当てる確率が$q(z_{d,i} = k)$である。$\delta(z_{d,i} = k)$は$z_{d,i} = k$のときに1、$z_{d,i} \neq k$のときに0となる確率変数である。潜在トピック$z_{d,i}$がkでない確率は$1 - q(z_{d,i} = k)$である。つまり、$\delta(z_{d,i} = k)$はベルヌーイ分布に従うと言える。
従って、ベルヌーイ分布の期待値と分散の定義より、$\mathbb{E}[\delta(z_{d,i} = k)] = q(z_{d,i} = k)$、$\mathbb{V}[\delta(z_{d,i} = k)] = q(z_{d,i} = k)(1 - q(z_{d,i} = k))$であることが分かる。
よって、$n_{d,k}^{\backslash d,i} = \sum_{i'\neq i} \delta(z_{d,i} = k)$より
$$
\begin{align}
\mathbb{E} [
n_{d,k}^{\backslash d,i}
]
&= \mathbb{E} \left[
\sum_{i'\neq i}
\delta(z_{d,i'} = k)
\right]
\\
&= \sum_{i'\neq i}
\mathbb{E} [
\delta(z_{d,i'} = k)
]
\\
&= \sum_{i'\neq i}
q(z_{d,i'} = k)
\tag{3.124}
\end{align}
$$
$$
\begin{align}
\mathbb{V} [
n_{d,k}^{\backslash d,i}
]
&= \mathbb{V} \left[
\sum_{i'\neq i}
\delta(z_{d,i'} = k)
\right]
\\
&= \sum_{i'\neq i}
\mathbb{V} [
\delta(z_{d,i'} = k)
]
\\
&= \sum_{i'\neq i}
q(z_{d,i'} = k) \Bigl(
1 - q(z_{d,i'} = k)
\Bigl)
\tag{3.125}
\end{align}
$$
である。
同様に、$n_{k,v}$は文書全体において単語vの潜在トピックにkが割り当てられた単語数である。$\delta(w_{d,i} = v)$は、文書dのi番目の単語$w_{d,i}$が文書全体でv番目の単語であるとき1となり、$w_{d,i} \neq v$のとき0となる。
よって、$n_{k,v}^{\backslash d,i} = \sum_{d=1}^M \sum_{i'\neq i} \delta(z_{d,i'} = k) \delta(w_{d,i'} = v)$より、それぞれ
$$
\begin{align}
\mathbb{E} [
n_{k,v}^{\backslash d,i}
]
&= \mathbb{E} \left[
\sum_{d=1}^M \sum_{i'\neq i}
\delta(z_{d,i'} = k)
\delta(w_{d,i'} = v)
\right]
\\
&= \sum_{d=1}^M \sum_{i'\neq i}
\mathbb{E} \left[
\delta(z_{d,i'} = k)
\delta(w_{d,i'} = v)
\right]
\\
&= \sum_{d=1}^M \sum_{i'\neq i}
q(z_{d,i'} = k)
\delta(w_{d,i'} = v)
\tag{3.126}
\end{align}
$$
$$
\mathbb{E} [
n_{k,\cdot}^{\backslash d,i}
]
= \sum_{v=1}^V
\mathbb{E} [
n_{k,v}^{\backslash d,i}
]
\tag{3.127}
$$
$$
\begin{align}
\mathbb{V} [
n_{k,v}^{\backslash d,i}
]
&= \mathbb{V} \left[
\sum_{d=1}^M \sum_{i'\neq i}
\delta(z_{d,i'} = k)
\delta(w_{d,i'} = v)
\right]
\\
&= \sum_{d=1}^M \sum_{i'\neq i}
\mathbb{V} \left[
\delta(z_{d,i'} = k)
\delta(w_{d,i'} = v)
\right]
\\
&= \sum_{d=1}^M \sum_{i'\neq i}
q(z_{d,i'} = k)
\delta(w_{d,i'} = v) \Bigl(
1 - q(z_{d,i'} = k)
\Bigr)
\delta(w_{d,i'} = v)
\\
&= \sum_{d=1}^M \sum_{i'\neq i}
q(z_{d,i'} = k) \Bigl(
1 - q(z_{d,i'} = k)
\Bigr)
\delta(w_{d,i'} = v)^2
\tag{3.128}
\end{align}
$$
(こう??。ついでに$\delta(w_{d,i'} = v)^2 = \delta(w_{d,i'} = v)$だよね)
$$
\mathbb{V} [
n_{k,\cdot}^{\backslash d,i}
]
= \sum_{v=1}^V
\mathbb{V} [
n_{k,v}^{\backslash d,i}
]
\tag{3.129}
$$
となる。
参考文献
- 佐藤一誠『トピックモデルによる統計的潜在意味解析』(自然言語処理シリーズ 8)奥村学監修,コロナ社,2015年.
おわりに
3.3節終了。次も1人でできるかな?
【次節の内容】
www.anarchive-beta.com