からっぽのしょこ

読んだら書く!書いたら読む!同じ事は二度調べ(たく)ない

3.6.3:固定点反復法【白トピックモデルのノート】

はじめに

 『トピックモデルによる統計的潜在意味解析』の学習時のメモです。基本的な内容は、数式の行間を読んで埋めたものになります。本と併せて読んでください。

 この記事では、3.6.3項の固定点反復法によるLDAのハイパーパラメータ推定について書いています。

 数学よく解らない自分が理解できるレベルまで落として数式を書き下していますので、分かる人にはかなりくどいです。

【前節の内容】

www.anarchive-beta.com

【他の節一覧】

www.anarchive-beta.com

【この節の内容】

3.6.1 対象/非対称Dirichlet分布の性質

 トピック分布のパラメータ$\boldsymbol{\alpha}$は非対称とし、単語分布のパラメータ$\boldsymbol{\beta}$は対称とした方が良い結果になることが知られている。

3.6.2 変分ベイズ法におけるDirichlet分布のパラメータ推定

 特になし。

3.6.3 固定点反復法

 固定点反復法を用いて、LDAのハイパーパラメータ$\boldsymbol{\alpha},\ \boldsymbol{\beta}$を推定する。

 関数$f(x)$に対して

$$ x = f(x) \tag{3.180} $$

の形の非線形方程式を考える。この方程式を満たす$x^{*}$を関数$f(x)$の固定点(不動点)と呼ぶ。
 固定点反復法は、適当な初期値$x^{(0)}$から

$$ x^{(s+1)} = f(x^{(s)}) \tag{3.181} $$

の計算を繰り返し行うことで不動点$x^{*}$に近づけていく方法である。

・変分下限の導出

 Dirichlet分布のパラメータ推定における固定点反復法では、変分下限の更に下限を用いる。

 3.3.6項(LDAの変分ベイズ法(2))の変分下限(3.102)を用いる。

$$ \begin{align*} F[q(\boldsymbol{z}, \boldsymbol{\theta}, \boldsymbol{\phi} | \boldsymbol{\xi}^{\theta}, \boldsymbol{\xi}^{\phi})] &= \sum_{k=1}^K \left[ \log \frac{ \Gamma(\sum_{v=1}^V \beta_v) }{ \prod_{v=1}^V \Gamma(\beta_v) } - \log \frac{ \Gamma(\sum_{v=1}^V \xi_{k,v}^{\phi}) }{ \prod_{v=1}^V \Gamma(\xi_{k,v}^{\phi}) } \right] \\ &\qquad + \sum_{k=1}^K \sum_{v=1}^V ( \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] + \beta_v - \xi_{k,v}^{\phi} ) \mathbb{E}_{q(\boldsymbol{\phi}_k | \boldsymbol{\xi}_k^{\phi})}[ \log \phi_{k,v} ] \\ &\qquad + \sum_{d=1}^M \left[ \log \frac{ \Gamma(\sum_{k=1}^K \alpha_k) }{ \prod_{k=1}^K \Gamma(\alpha_k) } - \log \frac{ \Gamma(\sum_{k=1}^K \xi_{d,k}^{\theta}) }{ \prod_{k=1}^K \Gamma(\xi_{d,k}^{\theta}) } \right] \\ &\qquad + \sum_{d=1}^M \sum_{k=1}^K ( \mathbb{E}_{q(\boldsymbol{z}_d)}[ n_{d,k} ] + \alpha_k - \xi_{d,k}^{\theta} ) \mathbb{E}_{q(\boldsymbol{\theta}_d | \boldsymbol{\xi}_d^{\theta})}[ \log \theta_{d,k} ] \\ &\qquad - \sum_{d=1}^M \sum_{i=1}^{n_d} \sum_{k=1}^K q(z_{d,i} = k) \log q(z_{d,i} = k) \tag{3.102} \end{align*} $$

 また、3.3.5項や3.3.6項で導出したハイパーパラメータの更新式は

$$ \begin{aligned} \xi_{k,v}^{\phi} &= \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] + \beta_{v} \\ \xi_{d,k}^{\theta} &= \mathbb{E}_{q(\boldsymbol{z}_d)}[ n_{d,k} ] + \alpha_{k} \end{aligned} $$

である。
 この更新後の値をそれぞれ変分下限(3.102)に代入すると

$$ \begin{align*} F[q(\boldsymbol{z}, \boldsymbol{\theta}, \boldsymbol{\phi} | \boldsymbol{\xi}^{\theta}, \boldsymbol{\xi}^{\phi})] &= \sum_{k=1}^K \left[ \log \frac{ \Gamma(\sum_{v=1}^V \beta_v) }{ \prod_{v=1}^V \Gamma(\beta_v) } - \log \frac{ \Gamma( \sum_{v=1}^V \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] + \beta_{v} ) }{ \prod_{v=1}^V \Gamma( \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] + \beta_{v} ) } \right] \\ &\qquad + \sum_{d=1}^M \left[ \log \frac{ \Gamma(\sum_{k=1}^K \alpha_k) }{ \prod_{k=1}^K \Gamma(\alpha_k) } - \log \frac{ \Gamma( \sum_{k=1}^K \mathbb{E}_{q(\boldsymbol{z}_d)}[ n_{d,k} ] + \alpha_{k} ) }{ \prod_{k=1}^K \Gamma( \mathbb{E}_{q(\boldsymbol{z}_d)}[ n_{d,k} ] + \alpha_{k} ) } \right] \\ &\qquad - \sum_{d=1}^M \sum_{i=1}^{n_d} \sum_{k=1}^K q(z_{d,i} = k) \log q(z_{d,i} = k) \\ &= \sum_{k=1}^K \log \frac{ \Gamma(\sum_{v=1}^V \beta_v) }{ \prod_{v=1}^V \Gamma(\beta_v) } \frac{ \prod_{v=1}^V \Gamma( \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] + \beta_{v} ) }{ \Gamma( \sum_{v=1}^V \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] + \beta_{v} ) }\\ &\qquad + \sum_{d=1}^M \log \frac{ \Gamma(\sum_{k=1}^K \alpha_k) }{ \prod_{k=1}^K \Gamma(\alpha_k) } \frac{ \prod_{k=1}^K \Gamma( \mathbb{E}_{q(\boldsymbol{z}_d)}[ n_{d,k} ] + \alpha_{k} ) }{ \Gamma( \sum_{k=1}^K \mathbb{E}_{q(\boldsymbol{z}_d)}[ n_{d,k} ] + \alpha_{k} ) } \\ &\qquad - \sum_{d=1}^M \sum_{i=1}^{n_d} \sum_{k=1}^K q(z_{d,i} = k) \log q(z_{d,i} = k) \\ &= \sum_{k=1}^K \log \frac{ \Gamma(\sum_{v=1}^V \beta_v) }{ \Gamma( \sum_{v=1}^V \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] + \beta_{v} ) } \prod_{v=1}^V \frac{ \Gamma( \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] + \beta_{v} ) }{ \Gamma(\beta_v) } \tag{1}\\ &\qquad + \sum_{d=1}^M \log \frac{ \Gamma(\sum_{k=1}^K \alpha_k) }{ \Gamma( \sum_{k=1}^K \mathbb{E}_{q(\boldsymbol{z}_d)}[ n_{d,k} ] + \alpha_{k} ) } \prod_{k=1}^K \frac{ \Gamma( \mathbb{E}_{q(\boldsymbol{z}_d)}[ n_{d,k} ] + \alpha_{k} ) }{ \Gamma(\alpha_k) } \tag{2} \\ &\qquad - \sum_{d=1}^M \sum_{i=1}^{n_d} \sum_{k=1}^K q(z_{d,i} = k) \log q(z_{d,i} = k) \tag{3.182} \end{align*} $$

が得られる。次の不等式と対応させるために、それぞれ分母を入れ替えて式を整理している。

・ガンマ関数の不等式

 任意の$\hat{x} \geq 0$に対して、$x > 0,\ n \geq 0$のとき

$$ \frac{\Gamma(x)}{\Gamma(n + x)} \geq \frac{ \Gamma(\hat{x}) \exp\Bigl( (\hat{x} - x) b \Bigr) }{ \Gamma(n + \hat{x}) } \tag{3.183} $$
$$ b = \Psi(n + \hat{x}) - \Psi(\hat{x}) \tag{3.184} $$

 また、$n \geq 1$のとき

$$ \frac{\Gamma(n + x)}{\Gamma(x)} \geq c x^a \tag{3.185} $$
$$ \begin{align*} a &= \Bigl( \Psi(n + \hat{x}) - \Psi(\hat{x}) \Bigr) \hat{x} \tag{3.186}\\ c &= \frac{\Gamma(n + \hat{x})}{\Gamma(\hat{x})} \hat{x}^{-a} \tag{3.187} \end{align*} $$

が成り立つ。

 この不等式を用いて変分下限(3.182)の更に下限を求め、それを用いてハイパーパラメータの更新式を導出していく。

・トピック分布のパラメータの更新式の導出

 まずは、トピック分布のパラメータ$\boldsymbol{\alpha}$を求める。
 式(2)について、$\sum_{k=1}^K \alpha_k,\ \alpha_k$を$x$、$\sum_{k=1}^K \mathbb{E}_{q(\boldsymbol{z}_d)}[n_{d,k}],\ \mathbb{E}_{p(\boldsymbol{z}_d)}[n_{d,k}]$を$n$と対応させて、$a,\ b$をそれぞれ$a_{d,k}^{\theta},\ b_d^{\theta}$として、下限を求める。

 前の因子は

$$ \frac{ \Gamma \left( \sum_{k=1}^K \alpha_k \right) }{ \Gamma \left( \sum_{k=1}^K \mathbb{E}_{q(\boldsymbol{z}_d)}[ n_{d,k} ] + \alpha_k \right) } \geq \frac{ \Gamma \left( \sum_{k=1}^K \hat{\alpha}_k \right) \exp \Bigl( ( \sum_{k=1}^K \hat{\alpha}_k - \alpha_k ) b_d^{\theta} \Bigr) }{ \Gamma \left( \sum_{k=1}^K \mathbb{E}_{q(\boldsymbol{z}_d)}[ n_{d,k} ] + \hat{\alpha}_k \right) } $$
$$ b_d^{\theta} = \Psi \left( \sum_{k=1}^K \mathbb{E}_{q(\boldsymbol{z}_d)}[ n_{d,k} ] + \hat{\alpha}_k \right) - \Psi \left( \sum_{k=1}^K \hat{\alpha}_k \right) $$

となり、また後の因子は

$$ \frac{ \Gamma \left( \mathbb{E}_{q(\boldsymbol{z}_d)}[ n_{d,k} ] + \alpha_{k} \right) }{ \Gamma(\alpha_k) } \geq \frac{ \Gamma \left( \mathbb{E}_{q(\boldsymbol{z}_d)}[ n_{d,k} ] + \hat{\alpha}_k \right) }{ \Gamma(\hat{\alpha}_k) } \hat{\alpha}_k^{-a_{d,k}^{\theta}} \alpha_k^{a_{d,k}^{\theta}} $$
$$ a_{d,k}^{\theta} = \Bigl( \Psi( \mathbb{E}_{q(\boldsymbol{z}_d)}[ n_{d,k} ] + \hat{\alpha}_k ) - \Psi(\hat{\alpha}_k) \Bigr) \hat{\alpha}_k $$

となる。
 従って、式(2)の下限はこれらを組み併せて

$$ \begin{align*} &\sum_{d=1}^M \log \frac{ \Gamma \left( \sum_{k=1}^K \alpha_k \right) }{ \Gamma \left( \sum_{k=1}^K \mathbb{E}_{q(\boldsymbol{z}_d)}[ n_{d,k} ] + \alpha_{k} \right) } \prod_{k=1}^K \frac{ \Gamma \left( \mathbb{E}_{q(\boldsymbol{z}_d)}[ n_{d,k} ] + \alpha_{k} \right) }{ \Gamma(\alpha_k) } \tag{2}\\ &\geq \sum_{d=1}^M \log \frac{ \Gamma \left( \sum_{k=1}^K \hat{\alpha}_k \right) \exp \Bigl( ( \sum_{k=1}^K \hat{\alpha}_k - \alpha_k ) b_d^{\theta} \Bigr) }{ \Gamma \left( \sum_{k=1}^K \mathbb{E}_{q(\boldsymbol{z}_d)}[ n_{d,k} ] + \hat{\alpha}_k \right) } \prod_{k=1}^K \frac{ \Gamma \Bigl( \mathbb{E}_{q(\boldsymbol{z}_d)}[ n_{d,k} ] + \hat{\alpha}_k \Bigr) }{ \Gamma(\hat{\alpha}_k) } \hat{\alpha}_k^{-a_{d,k}^{\theta}} \alpha_k^{a_{d,k}^{\theta}} \\ &= \sum_{d=1}^M \left[ \log \Gamma \Bigl( \sum_{k=1}^K \hat{\alpha}_k \Bigr) + \Bigl( \sum_{k=1}^K \hat{\alpha}_k - \alpha_k \Bigr) b_d^{\theta} - \log \Gamma \Bigl( \sum_{k=1}^K \mathbb{E}_{q(\boldsymbol{z}_d)}[ n_{d,k} ] + \hat{\alpha}_k \Bigr) \right.\\ &\qquad \left. + \sum_{k=1}^K \Bigl\{ \log \Gamma \Bigl( \mathbb{E}_{q(\boldsymbol{z}_d)}[ n_{d,k} ] + \hat{\alpha}_k \Bigr) - \log \Gamma(\hat{\alpha}_k) - a_{d,k}^{\theta} \log \hat{\alpha}_k + a_{d,k}^{\theta} \log \alpha_k \Bigr\} \right] \\ &= \sum_{d=1}^M \left[ - b_d^{\theta} \sum_{k=1}^K \alpha_k + \sum_{k=1}^K a_{d,k}^{\theta} \log \alpha_k \right] + ({\rm const.}) \equiv F[\alpha_k] \tag{3.190} \end{align*} $$

となる。(どうせ微分すると消えるので)$\boldsymbol{\alpha}$に関係しない項をまとめて(const.)とする。
 この下限$F[\alpha_k]$を最大にする$\boldsymbol{\alpha}$を求めるために、$\alpha_k$で微分して0となる停留点を求める。

$$ \begin{aligned} \frac{\partial F[\alpha_k]}{\partial \alpha_k} = \sum_{d=1}^M \left[ - b_d^{\theta} + \frac{1}{\alpha_k} a_{d,k}^{\theta} \right] &= 0 \\ \alpha_k &= \frac{ \sum_{d=1}^M a_{d,k}^{\theta} }{ \sum_{d=1}^M b_d^{\theta} } \end{aligned} $$

 $a_{d,k}^{\theta},\ b_d^{\theta}$をそれぞれ代入すると

$$ \alpha_k = \hat{\alpha}_k \frac{ \sum_{d=1}^M \left[ \Psi \left( \mathbb{E}_{q(\boldsymbol{z}_d)}[ n_{d,k} ] + \hat{\alpha}_k \right) - \Psi(\hat{\alpha}_k) \right] }{ \sum_{d=1}^M \left[ \Psi \left( \sum_{k=1}^K \mathbb{E}_{q(\boldsymbol{z}_d)}[ n_{d,k} ] + \alpha_k \right) - \Psi \left( \sum_{k=1}^K \hat{\alpha}_k \right) \right] } \tag{3.191} $$

が得られる。
 $\hat{\alpha}_k$を1ステップ前の値とすれば、$\alpha_k$に対する固定点反復法が得られた。

・単語分布のパラメータの更新式の導出

・非対称

 同様にして、単語分布のパラメータ$\boldsymbol{\beta}$を求める。
 式(1)について、$\sum_{v=1}^V \beta_v,\ \beta_v$を$x$、$\sum_{v=1}^V \mathbb{E}_{q(\boldsymbol{z})}[n_{k,v}],\ \mathbb{E}_{p(\boldsymbol{z}_d)}[n_{k,v}]$を$n$と対応させて、$a,\ b$をそれぞれ$a_{k,v}^{\phi},\ b_k^{\phi}$として、下限を求める。

 前の因子は

$$ \frac{ \Gamma \left( \sum_{v=1}^V \beta_v \right) }{ \Gamma \left( \sum_{v=1}^V \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] + \beta_{v} \right) } \geq \frac{ \Gamma \left( \sum_{v=1}^V \hat{\beta}_v \right) \exp \Bigl( ( \sum_{v=1}^V \hat{\beta}_v - \beta_v ) b_k^{\phi} \Bigr) }{ \Gamma \left( \sum_{v=1}^V \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] + \hat{\beta}_{v} \right) } $$
$$ b_k^{\phi} = \Psi \left( \sum_{v=1}^V \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] + \hat{\beta}_{v} \right) - \Psi \left( \sum_{v=1}^V \hat{\beta}_v \right) $$

となり。また後ろの因子は

$$ \frac{ \Gamma \left( \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] + \beta_v \right) }{ \Gamma(\beta_v) } \geq \frac{ \Gamma \left( \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] + \hat{\beta}_v \right) }{ \Gamma(\hat{\beta}_v) } \hat{\beta}_v^{-a_{k,v}^{\phi}} \beta_v^{a_{k,v}^{\phi}} $$
$$ a_{k,v}^{\phi} = \Bigl( \Psi( \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] + \hat{\beta}_v ) - \Psi(\hat{\beta}_v) \Bigr) \hat{\beta}_v $$

となる。
 従って、式(1)の下限はこれらを組み併せて

$$ \begin{align*} &\sum_{k=1}^K \log \frac{ \Gamma \left( \sum_{v=1}^V \beta_v \right) }{ \Gamma \left( \sum_{v=1}^V \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] + \beta_{v} \right) } \prod_{v=1}^V \frac{ \Gamma \left( \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] + \beta_v \right) }{ \Gamma(\beta_v) } \tag{1}\\ &\geq \sum_{k=1}^K \log \frac{ \Gamma \left( \sum_{v=1}^V \hat{\beta}_v \right) \exp \Bigl( ( \sum_{v=1}^V \hat{\beta}_v - \beta_v ) b_k^{\phi} \Bigr) }{ \Gamma \left( \sum_{v=1}^V \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] + \hat{\beta}_{v} \right) } \prod_{v=1}^V \frac{ \Gamma \left( \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] + \hat{\beta}_v \right) }{ \Gamma(\hat{\beta}_v) } \hat{\beta}_v^{-a_{k,v}^{\phi}} \beta_v^{a_{k,v}^{\phi}} \\ &= \sum_{k=1}^K \left[ \log \Gamma \Bigl( \sum_{v=1}^V \hat{\beta}_v \Bigr) + \Bigl( \sum_{v=1}^V \hat{\beta}_v - \beta_v \Bigr) b_k^{\phi} - \log \Gamma \Bigl( \sum_{v=1}^V \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] + \hat{\beta}_{v} \Bigr) \right.\\ &\qquad \left. + \sum_{v=1}^V \left\{ \log \Gamma \Bigl( \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] + \hat{\beta}_v \Bigr) - \log \Gamma(\hat{\beta}_v) - a_{k,v}^{\phi} \log \hat{\beta}_v + a_{k,v}^{\phi} \log \beta_v \right\} \right] \\ &= \sum_{k=1}^K \left[ - b_k^{\phi} \sum_{v=1}^V \beta_v + \sum_{v=1}^V a_{k,v}^{\phi} \log \beta_v \right] + ({\rm const.}) \equiv F[\beta_v] \end{align*} $$

となる。(どうせ微分すると消えるので)$\boldsymbol{\beta}$と関係しない項を(const.)とする。
 この下限$F[\beta_v]$を最大にする$\boldsymbol{\beta}$を求めるために、$\beta_v$で微分して0となる停留点を求める。

$$ \begin{aligned} \frac{\partial F[\beta_v]}{\partial \beta_v} = \sum_{k=1}^K \left[ - b_k^{\phi} + \frac{1}{\beta_v} a_{k,v}^{\phi} \right] &= 0 \\ \beta_v &= \frac{ \sum_{k=1}^K a_{k,v}^{\phi} }{ \sum_{k=1}^K b_k^{\phi} } \end{aligned} $$

 $a_{k,v}^{\phi},\ b_k^{\phi}$をそれぞれ代入すると

$$ \beta_v = \hat{\beta}_v \frac{ \sum_{k=1}^K \left[ \Psi \left( \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] + \hat{\beta}_v \right) - \Psi(\hat{\beta}_v) \right] }{ \sum_{k=1}^K \left[ \Psi \left( \sum_{v=1}^V \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] + \hat{\beta}_{v} \right) - \Psi \left( \sum_{v=1}^V \hat{\beta}_v \right) \right] } \tag{3.192} $$

が得られる。
 $\hat{\beta}_v$を1ステップ前の値とすれば、$\beta_v$に対する固定点反復法が得られた。

・対称

 $\boldsymbol{\beta}$は対称とした方が良い結果となることが経験的に知られている。全ての単語に対して同じ値$\beta$を用いる場合の更新式も求める。

 $\boldsymbol{\beta} = (\beta, \beta, \cdots, \beta)$のとき、$\sum_{v=1}^V \beta = V \beta$なので、式(1)は

$$ \begin{align*} &\sum_{k=1}^K \log \frac{ \Gamma(V \beta) }{ \Gamma \left( \sum_{v=1}^V \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] + \beta \right) } \prod_{v=1}^V \frac{ \Gamma \left( \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] + \beta \right) }{ \Gamma(\beta) } \tag{1}\\ &\geq \sum_{k=1}^K \left[ - b_k^{\phi} V \beta + \sum_{v=1}^V a_{k,v}^{\phi} \log \beta \right] + ({\rm const.}) \equiv F[\beta] \end{align*} $$

となる。
 $a_{k,v}^{\phi},\ b_k^{\phi}$をそれぞれ代入すると

$$ \begin{align*} F[\beta] &\equiv \sum_{k=1}^K \left[ - \left( \Psi \Bigl( \sum_{v=1}^V \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] + \hat{\beta} \Bigr) - \Psi(V \hat{\beta}) \right) V \beta + \sum_{v=1}^V \Bigl( \Psi( \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] + \hat{\beta} ) - \Psi(\hat{\beta}) \Bigr) \hat{\beta} \log \beta \right] + ({\rm const.}) \tag{3.193} \end{align*} $$

 $\beta$で微分して0となる停留点を求める。

$$ \frac{\partial F[\beta]}{\partial \beta} = \sum_{k=1}^K \left[ - \left( \Psi \Bigl( \sum_{v=1}^V \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] + \hat{\beta} \Bigr) - \Psi(V \hat{\beta}) \right) V + \frac{1}{\beta} \sum_{v=1}^V \Bigl( \Psi( \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] + \hat{\beta} ) - \Psi(\hat{\beta}) \Bigr) \hat{\beta} \right] = 0 $$

 これを解くと

$$ \begin{align*} V \beta \sum_{k=1}^K \left[ \Psi \left( \sum_{v=1}^V \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] + \hat{\beta} \right) - \Psi(V \hat{\beta}) \right] &= \hat{\beta} \sum_{k=1}^K \sum_{v=1}^V \left[ \Psi \Bigl( \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] + \hat{\beta} \Bigr) - \Psi(\hat{\beta}) \right] \\ \beta &= \frac{\hat{\beta}}{V} \frac{ \sum_{k=1}^K \sum_{v=1}^V \left[ \Psi \left( \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] + \hat{\beta} \right) - \Psi(\hat{\beta}) \right] }{ \sum_{k=1}^K \left[ \Psi \left( \sum_{v=1}^V \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] + \hat{\beta} \right) - \Psi(V \hat{\beta}) \right] } \tag{3.194} \end{align*} $$

が得られる。($\sum_v,\ \sum_k$がどこまで影響するのか注意すること。例えば$\Psi( \sum_{v=1}^V \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] + \hat{\beta} )$は$\Psi( V \hat{\beta} + \sum_{v=1}^V \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] )$である。)

参考文献

  • 佐藤一誠『トピックモデルによる統計的潜在意味解析』(自然言語処理シリーズ 8)奥村学監修,コロナ社,2015年.

おわりに

 これは青本でやったのですぐできた。ただ、不動点反復法の解釈が間違ってたことに気付いた…直さねば。

【次節の内容】

www.anarchive-beta.com