はじめに
『トピックモデルによる統計的潜在意味解析』の学習時のメモです。基本的な内容は、数式の行間を読んで埋めたものになります。本と併せて読んでください。
この記事では、3.6.3項の固定点反復法によるLDAのハイパーパラメータ推定について書いています。
数学よく解らない自分が理解できるレベルまで落として数式を書き下していますので、分かる人にはかなりくどいです。
【前節の内容】
www.anarchive-beta.com
【他の節一覧】
www.anarchive-beta.com
【この節の内容】
3.6.1 対象/非対称Dirichlet分布の性質
トピック分布のパラメータ$\boldsymbol{\alpha}$は非対称とし、単語分布のパラメータ$\boldsymbol{\beta}$は対称とした方が良い結果になることが知られている。
3.6.2 変分ベイズ法におけるDirichlet分布のパラメータ推定
特になし。
3.6.3 固定点反復法
固定点反復法を用いて、LDAのハイパーパラメータ$\boldsymbol{\alpha},\ \boldsymbol{\beta}$を推定する。
関数$f(x)$に対して
$$
x = f(x) \tag{3.180}
$$
の形の非線形方程式を考える。この方程式を満たす$x^{*}$を関数$f(x)$の固定点(不動点)と呼ぶ。
固定点反復法は、適当な初期値$x^{(0)}$から
$$
x^{(s+1)}
= f(x^{(s)})
\tag{3.181}
$$
の計算を繰り返し行うことで不動点$x^{*}$に近づけていく方法である。
・変分下限の導出
Dirichlet分布のパラメータ推定における固定点反復法では、変分下限の更に下限を用いる。
3.3.6項(LDAの変分ベイズ法(2))の変分下限(3.102)を用いる。
$$
\begin{align*}
F[q(\boldsymbol{z}, \boldsymbol{\theta}, \boldsymbol{\phi} | \boldsymbol{\xi}^{\theta}, \boldsymbol{\xi}^{\phi})]
&= \sum_{k=1}^K \left[
\log \frac{
\Gamma(\sum_{v=1}^V \beta_v)
}{
\prod_{v=1}^V \Gamma(\beta_v)
}
- \log \frac{
\Gamma(\sum_{v=1}^V \xi_{k,v}^{\phi})
}{
\prod_{v=1}^V \Gamma(\xi_{k,v}^{\phi})
}
\right] \\
&\qquad
+ \sum_{k=1}^K \sum_{v=1}^V (
\mathbb{E}_{q(\boldsymbol{z})}[
n_{k,v}
]
+ \beta_v - \xi_{k,v}^{\phi}
)
\mathbb{E}_{q(\boldsymbol{\phi}_k | \boldsymbol{\xi}_k^{\phi})}[
\log \phi_{k,v}
] \\
&\qquad
+ \sum_{d=1}^M \left[
\log \frac{
\Gamma(\sum_{k=1}^K \alpha_k)
}{
\prod_{k=1}^K \Gamma(\alpha_k)
}
- \log \frac{
\Gamma(\sum_{k=1}^K \xi_{d,k}^{\theta})
}{
\prod_{k=1}^K \Gamma(\xi_{d,k}^{\theta})
}
\right] \\
&\qquad
+ \sum_{d=1}^M \sum_{k=1}^K (
\mathbb{E}_{q(\boldsymbol{z}_d)}[
n_{d,k}
]
+ \alpha_k - \xi_{d,k}^{\theta}
)
\mathbb{E}_{q(\boldsymbol{\theta}_d | \boldsymbol{\xi}_d^{\theta})}[
\log \theta_{d,k}
] \\
&\qquad
- \sum_{d=1}^M \sum_{i=1}^{n_d} \sum_{k=1}^K
q(z_{d,i} = k)
\log q(z_{d,i} = k)
\tag{3.102}
\end{align*}
$$
また、3.3.5項や3.3.6項で導出したハイパーパラメータの更新式は
$$
\begin{aligned}
\xi_{k,v}^{\phi}
&= \mathbb{E}_{q(\boldsymbol{z})}[
n_{k,v}
]
+ \beta_{v}
\\
\xi_{d,k}^{\theta}
&= \mathbb{E}_{q(\boldsymbol{z}_d)}[
n_{d,k}
]
+ \alpha_{k}
\end{aligned}
$$
である。
この更新後の値をそれぞれ変分下限(3.102)に代入すると
$$
\begin{align*}
F[q(\boldsymbol{z}, \boldsymbol{\theta}, \boldsymbol{\phi} | \boldsymbol{\xi}^{\theta}, \boldsymbol{\xi}^{\phi})]
&= \sum_{k=1}^K \left[
\log \frac{
\Gamma(\sum_{v=1}^V \beta_v)
}{
\prod_{v=1}^V \Gamma(\beta_v)
}
- \log \frac{
\Gamma(
\sum_{v=1}^V
\mathbb{E}_{q(\boldsymbol{z})}[
n_{k,v}
]
+ \beta_{v}
)
}{
\prod_{v=1}^V
\Gamma(
\mathbb{E}_{q(\boldsymbol{z})}[
n_{k,v}
]
+ \beta_{v}
)
}
\right] \\
&\qquad
+ \sum_{d=1}^M \left[
\log \frac{
\Gamma(\sum_{k=1}^K \alpha_k)
}{
\prod_{k=1}^K \Gamma(\alpha_k)
}
- \log \frac{
\Gamma(
\sum_{k=1}^K
\mathbb{E}_{q(\boldsymbol{z}_d)}[
n_{d,k}
]
+ \alpha_{k}
)
}{
\prod_{k=1}^K
\Gamma(
\mathbb{E}_{q(\boldsymbol{z}_d)}[
n_{d,k}
]
+ \alpha_{k}
)
}
\right] \\
&\qquad
- \sum_{d=1}^M \sum_{i=1}^{n_d} \sum_{k=1}^K
q(z_{d,i} = k)
\log q(z_{d,i} = k)
\\
&= \sum_{k=1}^K \log
\frac{
\Gamma(\sum_{v=1}^V \beta_v)
}{
\prod_{v=1}^V \Gamma(\beta_v)
}
\frac{
\prod_{v=1}^V
\Gamma(
\mathbb{E}_{q(\boldsymbol{z})}[
n_{k,v}
]
+ \beta_{v}
)
}{
\Gamma(
\sum_{v=1}^V
\mathbb{E}_{q(\boldsymbol{z})}[
n_{k,v}
]
+ \beta_{v}
)
}\\
&\qquad
+ \sum_{d=1}^M \log
\frac{
\Gamma(\sum_{k=1}^K \alpha_k)
}{
\prod_{k=1}^K \Gamma(\alpha_k)
}
\frac{
\prod_{k=1}^K
\Gamma(
\mathbb{E}_{q(\boldsymbol{z}_d)}[
n_{d,k}
]
+ \alpha_{k}
)
}{
\Gamma(
\sum_{k=1}^K
\mathbb{E}_{q(\boldsymbol{z}_d)}[
n_{d,k}
]
+ \alpha_{k}
)
} \\
&\qquad
- \sum_{d=1}^M \sum_{i=1}^{n_d} \sum_{k=1}^K
q(z_{d,i} = k)
\log q(z_{d,i} = k)
\\
&= \sum_{k=1}^K \log
\frac{
\Gamma(\sum_{v=1}^V \beta_v)
}{
\Gamma(
\sum_{v=1}^V
\mathbb{E}_{q(\boldsymbol{z})}[
n_{k,v}
]
+ \beta_{v}
)
}
\prod_{v=1}^V
\frac{
\Gamma(
\mathbb{E}_{q(\boldsymbol{z})}[
n_{k,v}
]
+ \beta_{v}
)
}{
\Gamma(\beta_v)
} \tag{1}\\
&\qquad
+ \sum_{d=1}^M \log
\frac{
\Gamma(\sum_{k=1}^K \alpha_k)
}{
\Gamma(
\sum_{k=1}^K
\mathbb{E}_{q(\boldsymbol{z}_d)}[
n_{d,k}
]
+ \alpha_{k}
)
}
\prod_{k=1}^K
\frac{
\Gamma(
\mathbb{E}_{q(\boldsymbol{z}_d)}[
n_{d,k}
]
+ \alpha_{k}
)
}{
\Gamma(\alpha_k)
}
\tag{2} \\
&\qquad
- \sum_{d=1}^M \sum_{i=1}^{n_d} \sum_{k=1}^K
q(z_{d,i} = k)
\log q(z_{d,i} = k)
\tag{3.182}
\end{align*}
$$
が得られる。次の不等式と対応させるために、それぞれ分母を入れ替えて式を整理している。
・ガンマ関数の不等式
任意の$\hat{x} \geq 0$に対して、$x > 0,\ n \geq 0$のとき
$$
\frac{\Gamma(x)}{\Gamma(n + x)}
\geq
\frac{
\Gamma(\hat{x})
\exp\Bigl(
(\hat{x} - x) b
\Bigr)
}{
\Gamma(n + \hat{x})
}
\tag{3.183}
$$
$$
b = \Psi(n + \hat{x})
- \Psi(\hat{x})
\tag{3.184}
$$
また、$n \geq 1$のとき
$$
\frac{\Gamma(n + x)}{\Gamma(x)}
\geq
c x^a
\tag{3.185}
$$
$$
\begin{align*}
a &= \Bigl(
\Psi(n + \hat{x})
- \Psi(\hat{x})
\Bigr)
\hat{x}
\tag{3.186}\\
c &= \frac{\Gamma(n + \hat{x})}{\Gamma(\hat{x})}
\hat{x}^{-a}
\tag{3.187}
\end{align*}
$$
が成り立つ。
この不等式を用いて変分下限(3.182)の更に下限を求め、それを用いてハイパーパラメータの更新式を導出していく。
・トピック分布のパラメータの更新式の導出
まずは、トピック分布のパラメータ$\boldsymbol{\alpha}$を求める。
式(2)について、$\sum_{k=1}^K \alpha_k,\ \alpha_k$を$x$、$\sum_{k=1}^K \mathbb{E}_{q(\boldsymbol{z}_d)}[n_{d,k}],\ \mathbb{E}_{p(\boldsymbol{z}_d)}[n_{d,k}]$を$n$と対応させて、$a,\ b$をそれぞれ$a_{d,k}^{\theta},\ b_d^{\theta}$として、下限を求める。
前の因子は
$$
\frac{
\Gamma \left(
\sum_{k=1}^K \alpha_k
\right)
}{
\Gamma \left(
\sum_{k=1}^K
\mathbb{E}_{q(\boldsymbol{z}_d)}[
n_{d,k}
]
+ \alpha_k
\right)
}
\geq
\frac{
\Gamma \left(
\sum_{k=1}^K \hat{\alpha}_k
\right)
\exp \Bigl( (
\sum_{k=1}^K
\hat{\alpha}_k - \alpha_k
)
b_d^{\theta}
\Bigr)
}{
\Gamma \left(
\sum_{k=1}^K
\mathbb{E}_{q(\boldsymbol{z}_d)}[
n_{d,k}
]
+ \hat{\alpha}_k
\right)
}
$$
$$
b_d^{\theta}
= \Psi \left(
\sum_{k=1}^K
\mathbb{E}_{q(\boldsymbol{z}_d)}[
n_{d,k}
]
+ \hat{\alpha}_k
\right)
- \Psi \left(
\sum_{k=1}^K \hat{\alpha}_k
\right)
$$
となり、また後の因子は
$$
\frac{
\Gamma \left(
\mathbb{E}_{q(\boldsymbol{z}_d)}[
n_{d,k}
]
+ \alpha_{k}
\right)
}{
\Gamma(\alpha_k)
}
\geq
\frac{
\Gamma \left(
\mathbb{E}_{q(\boldsymbol{z}_d)}[
n_{d,k}
]
+ \hat{\alpha}_k
\right)
}{
\Gamma(\hat{\alpha}_k)
}
\hat{\alpha}_k^{-a_{d,k}^{\theta}}
\alpha_k^{a_{d,k}^{\theta}}
$$
$$
a_{d,k}^{\theta}
= \Bigl(
\Psi(
\mathbb{E}_{q(\boldsymbol{z}_d)}[
n_{d,k}
]
+ \hat{\alpha}_k
)
- \Psi(\hat{\alpha}_k)
\Bigr)
\hat{\alpha}_k
$$
となる。
従って、式(2)の下限はこれらを組み併せて
$$
\begin{align*}
&\sum_{d=1}^M \log
\frac{
\Gamma \left(
\sum_{k=1}^K \alpha_k
\right)
}{
\Gamma \left(
\sum_{k=1}^K
\mathbb{E}_{q(\boldsymbol{z}_d)}[
n_{d,k}
]
+ \alpha_{k}
\right)
}
\prod_{k=1}^K
\frac{
\Gamma \left(
\mathbb{E}_{q(\boldsymbol{z}_d)}[
n_{d,k}
]
+ \alpha_{k}
\right)
}{
\Gamma(\alpha_k)
}
\tag{2}\\
&\geq
\sum_{d=1}^M \log
\frac{
\Gamma \left(
\sum_{k=1}^K \hat{\alpha}_k
\right)
\exp \Bigl( (
\sum_{k=1}^K
\hat{\alpha}_k - \alpha_k
)
b_d^{\theta}
\Bigr)
}{
\Gamma \left(
\sum_{k=1}^K
\mathbb{E}_{q(\boldsymbol{z}_d)}[
n_{d,k}
]
+ \hat{\alpha}_k
\right)
}
\prod_{k=1}^K
\frac{
\Gamma \Bigl(
\mathbb{E}_{q(\boldsymbol{z}_d)}[
n_{d,k}
]
+ \hat{\alpha}_k
\Bigr)
}{
\Gamma(\hat{\alpha}_k)
}
\hat{\alpha}_k^{-a_{d,k}^{\theta}}
\alpha_k^{a_{d,k}^{\theta}}
\\
&= \sum_{d=1}^M \left[
\log \Gamma \Bigl(
\sum_{k=1}^K \hat{\alpha}_k
\Bigr)
+ \Bigl(
\sum_{k=1}^K
\hat{\alpha}_k - \alpha_k
\Bigr)
b_d^{\theta}
- \log \Gamma \Bigl(
\sum_{k=1}^K
\mathbb{E}_{q(\boldsymbol{z}_d)}[
n_{d,k}
]
+ \hat{\alpha}_k
\Bigr) \right.\\
&\qquad \left.
+ \sum_{k=1}^K \Bigl\{
\log \Gamma \Bigl(
\mathbb{E}_{q(\boldsymbol{z}_d)}[
n_{d,k}
]
+ \hat{\alpha}_k
\Bigr)
- \log \Gamma(\hat{\alpha}_k)
- a_{d,k}^{\theta} \log \hat{\alpha}_k
+ a_{d,k}^{\theta} \log \alpha_k
\Bigr\}
\right]
\\
&= \sum_{d=1}^M \left[
- b_d^{\theta}
\sum_{k=1}^K
\alpha_k
+ \sum_{k=1}^K
a_{d,k}^{\theta} \log \alpha_k
\right]
+ ({\rm const.})
\equiv F[\alpha_k]
\tag{3.190}
\end{align*}
$$
となる。(どうせ微分すると消えるので)$\boldsymbol{\alpha}$に関係しない項をまとめて(const.)とする。
この下限$F[\alpha_k]$を最大にする$\boldsymbol{\alpha}$を求めるために、$\alpha_k$で微分して0となる停留点を求める。
$$
\begin{aligned}
\frac{\partial F[\alpha_k]}{\partial \alpha_k}
= \sum_{d=1}^M \left[
- b_d^{\theta}
+ \frac{1}{\alpha_k}
a_{d,k}^{\theta}
\right]
&= 0
\\
\alpha_k
&= \frac{
\sum_{d=1}^M
a_{d,k}^{\theta}
}{
\sum_{d=1}^M
b_d^{\theta}
}
\end{aligned}
$$
$a_{d,k}^{\theta},\ b_d^{\theta}$をそれぞれ代入すると
$$
\alpha_k
= \hat{\alpha}_k
\frac{
\sum_{d=1}^M \left[
\Psi \left(
\mathbb{E}_{q(\boldsymbol{z}_d)}[
n_{d,k}
]
+ \hat{\alpha}_k
\right)
- \Psi(\hat{\alpha}_k)
\right]
}{
\sum_{d=1}^M \left[
\Psi \left(
\sum_{k=1}^K
\mathbb{E}_{q(\boldsymbol{z}_d)}[
n_{d,k}
]
+ \alpha_k
\right)
- \Psi \left(
\sum_{k=1}^K \hat{\alpha}_k
\right)
\right]
}
\tag{3.191}
$$
が得られる。
$\hat{\alpha}_k$を1ステップ前の値とすれば、$\alpha_k$に対する固定点反復法が得られた。
・単語分布のパラメータの更新式の導出
・非対称
同様にして、単語分布のパラメータ$\boldsymbol{\beta}$を求める。
式(1)について、$\sum_{v=1}^V \beta_v,\ \beta_v$を$x$、$\sum_{v=1}^V \mathbb{E}_{q(\boldsymbol{z})}[n_{k,v}],\ \mathbb{E}_{p(\boldsymbol{z}_d)}[n_{k,v}]$を$n$と対応させて、$a,\ b$をそれぞれ$a_{k,v}^{\phi},\ b_k^{\phi}$として、下限を求める。
前の因子は
$$
\frac{
\Gamma \left(
\sum_{v=1}^V \beta_v
\right)
}{
\Gamma \left(
\sum_{v=1}^V
\mathbb{E}_{q(\boldsymbol{z})}[
n_{k,v}
]
+ \beta_{v}
\right)
}
\geq
\frac{
\Gamma \left(
\sum_{v=1}^V \hat{\beta}_v
\right)
\exp \Bigl( (
\sum_{v=1}^V
\hat{\beta}_v - \beta_v
)
b_k^{\phi}
\Bigr)
}{
\Gamma \left(
\sum_{v=1}^V
\mathbb{E}_{q(\boldsymbol{z})}[
n_{k,v}
]
+ \hat{\beta}_{v}
\right)
}
$$
$$
b_k^{\phi}
= \Psi \left(
\sum_{v=1}^V
\mathbb{E}_{q(\boldsymbol{z})}[
n_{k,v}
]
+ \hat{\beta}_{v}
\right)
- \Psi \left(
\sum_{v=1}^V \hat{\beta}_v
\right)
$$
となり。また後ろの因子は
$$
\frac{
\Gamma \left(
\mathbb{E}_{q(\boldsymbol{z})}[
n_{k,v}
]
+ \beta_v
\right)
}{
\Gamma(\beta_v)
}
\geq
\frac{
\Gamma \left(
\mathbb{E}_{q(\boldsymbol{z})}[
n_{k,v}
]
+ \hat{\beta}_v
\right)
}{
\Gamma(\hat{\beta}_v)
}
\hat{\beta}_v^{-a_{k,v}^{\phi}}
\beta_v^{a_{k,v}^{\phi}}
$$
$$
a_{k,v}^{\phi}
= \Bigl(
\Psi(
\mathbb{E}_{q(\boldsymbol{z})}[
n_{k,v}
]
+ \hat{\beta}_v
)
- \Psi(\hat{\beta}_v)
\Bigr)
\hat{\beta}_v
$$
となる。
従って、式(1)の下限はこれらを組み併せて
$$
\begin{align*}
&\sum_{k=1}^K \log
\frac{
\Gamma \left(
\sum_{v=1}^V \beta_v
\right)
}{
\Gamma \left(
\sum_{v=1}^V
\mathbb{E}_{q(\boldsymbol{z})}[
n_{k,v}
]
+ \beta_{v}
\right)
}
\prod_{v=1}^V
\frac{
\Gamma \left(
\mathbb{E}_{q(\boldsymbol{z})}[
n_{k,v}
]
+ \beta_v
\right)
}{
\Gamma(\beta_v)
}
\tag{1}\\
&\geq
\sum_{k=1}^K \log
\frac{
\Gamma \left(
\sum_{v=1}^V \hat{\beta}_v
\right)
\exp \Bigl( (
\sum_{v=1}^V
\hat{\beta}_v - \beta_v
)
b_k^{\phi}
\Bigr)
}{
\Gamma \left(
\sum_{v=1}^V
\mathbb{E}_{q(\boldsymbol{z})}[
n_{k,v}
]
+ \hat{\beta}_{v}
\right)
}
\prod_{v=1}^V
\frac{
\Gamma \left(
\mathbb{E}_{q(\boldsymbol{z})}[
n_{k,v}
]
+ \hat{\beta}_v
\right)
}{
\Gamma(\hat{\beta}_v)
}
\hat{\beta}_v^{-a_{k,v}^{\phi}}
\beta_v^{a_{k,v}^{\phi}}
\\
&= \sum_{k=1}^K \left[
\log \Gamma \Bigl(
\sum_{v=1}^V \hat{\beta}_v
\Bigr)
+ \Bigl(
\sum_{v=1}^V
\hat{\beta}_v - \beta_v
\Bigr)
b_k^{\phi}
- \log \Gamma \Bigl(
\sum_{v=1}^V
\mathbb{E}_{q(\boldsymbol{z})}[
n_{k,v}
]
+ \hat{\beta}_{v}
\Bigr) \right.\\
&\qquad \left.
+ \sum_{v=1}^V \left\{
\log \Gamma \Bigl(
\mathbb{E}_{q(\boldsymbol{z})}[
n_{k,v}
]
+ \hat{\beta}_v
\Bigr)
- \log \Gamma(\hat{\beta}_v)
- a_{k,v}^{\phi} \log \hat{\beta}_v
+ a_{k,v}^{\phi} \log \beta_v
\right\}
\right]
\\
&= \sum_{k=1}^K \left[
- b_k^{\phi}
\sum_{v=1}^V
\beta_v
+ \sum_{v=1}^V
a_{k,v}^{\phi} \log \beta_v
\right]
+ ({\rm const.})
\equiv F[\beta_v]
\end{align*}
$$
となる。(どうせ微分すると消えるので)$\boldsymbol{\beta}$と関係しない項を(const.)とする。
この下限$F[\beta_v]$を最大にする$\boldsymbol{\beta}$を求めるために、$\beta_v$で微分して0となる停留点を求める。
$$
\begin{aligned}
\frac{\partial F[\beta_v]}{\partial \beta_v}
= \sum_{k=1}^K \left[
- b_k^{\phi}
+ \frac{1}{\beta_v}
a_{k,v}^{\phi}
\right]
&= 0
\\
\beta_v
&= \frac{
\sum_{k=1}^K
a_{k,v}^{\phi}
}{
\sum_{k=1}^K
b_k^{\phi}
}
\end{aligned}
$$
$a_{k,v}^{\phi},\ b_k^{\phi}$をそれぞれ代入すると
$$
\beta_v
= \hat{\beta}_v
\frac{
\sum_{k=1}^K \left[
\Psi \left(
\mathbb{E}_{q(\boldsymbol{z})}[
n_{k,v}
]
+ \hat{\beta}_v
\right)
- \Psi(\hat{\beta}_v)
\right]
}{
\sum_{k=1}^K \left[
\Psi \left(
\sum_{v=1}^V
\mathbb{E}_{q(\boldsymbol{z})}[
n_{k,v}
]
+ \hat{\beta}_{v}
\right)
- \Psi \left(
\sum_{v=1}^V \hat{\beta}_v
\right)
\right]
}
\tag{3.192}
$$
が得られる。
$\hat{\beta}_v$を1ステップ前の値とすれば、$\beta_v$に対する固定点反復法が得られた。
・対称
$\boldsymbol{\beta}$は対称とした方が良い結果となることが経験的に知られている。全ての単語に対して同じ値$\beta$を用いる場合の更新式も求める。
$\boldsymbol{\beta} = (\beta, \beta, \cdots, \beta)$のとき、$\sum_{v=1}^V \beta = V \beta$なので、式(1)は
$$
\begin{align*}
&\sum_{k=1}^K \log
\frac{
\Gamma(V \beta)
}{
\Gamma \left(
\sum_{v=1}^V
\mathbb{E}_{q(\boldsymbol{z})}[
n_{k,v}
]
+ \beta
\right)
}
\prod_{v=1}^V
\frac{
\Gamma \left(
\mathbb{E}_{q(\boldsymbol{z})}[
n_{k,v}
]
+ \beta
\right)
}{
\Gamma(\beta)
}
\tag{1}\\
&\geq
\sum_{k=1}^K \left[
- b_k^{\phi}
V \beta
+ \sum_{v=1}^V
a_{k,v}^{\phi} \log \beta
\right]
+ ({\rm const.})
\equiv F[\beta]
\end{align*}
$$
となる。
$a_{k,v}^{\phi},\ b_k^{\phi}$をそれぞれ代入すると
$$
\begin{align*}
F[\beta]
&\equiv
\sum_{k=1}^K \left[
- \left(
\Psi \Bigl(
\sum_{v=1}^V
\mathbb{E}_{q(\boldsymbol{z})}[
n_{k,v}
]
+ \hat{\beta}
\Bigr)
- \Psi(V \hat{\beta})
\right)
V \beta
+ \sum_{v=1}^V
\Bigl(
\Psi(
\mathbb{E}_{q(\boldsymbol{z})}[
n_{k,v}
]
+ \hat{\beta}
)
- \Psi(\hat{\beta})
\Bigr)
\hat{\beta}
\log \beta
\right]
+ ({\rm const.})
\tag{3.193}
\end{align*}
$$
$\beta$で微分して0となる停留点を求める。
$$
\frac{\partial F[\beta]}{\partial \beta}
= \sum_{k=1}^K \left[
- \left(
\Psi \Bigl(
\sum_{v=1}^V
\mathbb{E}_{q(\boldsymbol{z})}[
n_{k,v}
]
+ \hat{\beta}
\Bigr)
- \Psi(V \hat{\beta})
\right)
V
+ \frac{1}{\beta}
\sum_{v=1}^V
\Bigl(
\Psi(
\mathbb{E}_{q(\boldsymbol{z})}[
n_{k,v}
]
+ \hat{\beta}
)
- \Psi(\hat{\beta})
\Bigr)
\hat{\beta}
\right]
= 0
$$
これを解くと
$$
\begin{align*}
V \beta
\sum_{k=1}^K \left[
\Psi \left(
\sum_{v=1}^V
\mathbb{E}_{q(\boldsymbol{z})}[
n_{k,v}
]
+ \hat{\beta}
\right)
- \Psi(V \hat{\beta})
\right]
&= \hat{\beta}
\sum_{k=1}^K \sum_{v=1}^V \left[
\Psi \Bigl(
\mathbb{E}_{q(\boldsymbol{z})}[
n_{k,v}
]
+ \hat{\beta}
\Bigr)
- \Psi(\hat{\beta})
\right]
\\
\beta
&= \frac{\hat{\beta}}{V}
\frac{
\sum_{k=1}^K \sum_{v=1}^V \left[
\Psi \left(
\mathbb{E}_{q(\boldsymbol{z})}[
n_{k,v}
]
+ \hat{\beta}
\right)
- \Psi(\hat{\beta})
\right]
}{
\sum_{k=1}^K \left[
\Psi \left(
\sum_{v=1}^V
\mathbb{E}_{q(\boldsymbol{z})}[
n_{k,v}
]
+ \hat{\beta}
\right)
- \Psi(V \hat{\beta})
\right]
}
\tag{3.194}
\end{align*}
$$
が得られる。($\sum_v,\ \sum_k$がどこまで影響するのか注意すること。例えば$\Psi( \sum_{v=1}^V \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] + \hat{\beta} )$は$\Psi( V \hat{\beta} + \sum_{v=1}^V \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] )$である。)
参考文献
- 佐藤一誠『トピックモデルによる統計的潜在意味解析』(自然言語処理シリーズ 8)奥村学監修,コロナ社,2015年.
おわりに
これは青本でやったのですぐできた。ただ、不動点反復法の解釈が間違ってたことに気付いた…直さねば。
【次節の内容】
www.anarchive-beta.com