からっぽのしょこ

読んだら書く!書いたら読む!読書読読書読書♪同じ事は二度調べ(たく)ない

3.6.3:固定点反復法【白トピックモデルのノート】

はじめに

 『トピックモデルによる統計的潜在意味解析』の学習時のメモです。基本的な内容は、数式の行間を読んで埋めたものになります。本と併せて読んでください。

 この記事では、3.6.3項の固定点反復法によるLDAのハイパーパラメータ推定について書いています。

 数学よく解らない自分が理解できるレベルまで落として数式を書き下していますので、分かる人にはかなりくどいです。

【前節の内容】

www.anarchive-beta.com

【他の節一覧】

www.anarchive-beta.com

【この節の内容】

3.6 Dirichlet分布のパラメータ推定

 事前分布$p(\boldsymbol{\theta}_d | \boldsymbol{\alpha}),\ p(\boldsymbol{\phi}_k | \boldsymbol{\beta})$のパラメータ$\boldsymbol{\alpha},\ \boldsymbol{\beta}$を点推定する方法について説明する。

3.6.1 対象/非対称Dirichlet分布の性質

 トピック分布のパラメータ$\boldsymbol{\alpha}$は非対称とし、単語分布のパラメータ$\boldsymbol{\beta}$は対称とした方が良い結果になることが知られている。

3.6.2 変分ベイズ法におけるDirichlet分布のパラメータ推定

 特になし。

3.6.3 固定点反復法

 固定点反復法を用いて、LDAのハイパーパラメータ$\boldsymbol{\alpha},\ \boldsymbol{\beta}$を推定する。

 関数$f(x)$に対して

$$ x = f(x) \tag{3.180} $$

の形の非線形方程式を考える。この方程式を満たす$x^{*}$を関数$f(x)$の固定点(不動点)と呼ぶ。
 固定点反復法は、適当な初期値$x^{(0)}$から

$$ x^{(s+1)} = f(x^{(s)}) \tag{3.181} $$

の計算を繰り返し行うことで不動点$x^{*}$に近づけていく方法である。

・変分下限の導出

 Dirichlet分布のパラメータ推定における固定点反復法では、変分下限の更に下限を用いる。

 3.3.6項(LDAの変分ベイズ法(2))の変分下限(3.102)を用いる。

$$ \begin{align*} F[q(\boldsymbol{z}, \boldsymbol{\theta}, \boldsymbol{\phi} | \boldsymbol{\xi}^{\theta}, \boldsymbol{\xi}^{\phi})] &= \sum_{k=1}^K \left[ \log \frac{ \Gamma(\sum_{v=1}^V \beta_v) }{ \prod_{v=1}^V \Gamma(\beta_v) } - \log \frac{ \Gamma(\sum_{v=1}^V \xi_{k,v}^{\phi}) }{ \prod_{v=1}^V \Gamma(\xi_{k,v}^{\phi}) } \right] \\ &\qquad + \sum_{k=1}^K \sum_{v=1}^V ( \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] + \beta_v - \xi_{k,v}^{\phi} ) \mathbb{E}_{q(\boldsymbol{\phi}_k | \boldsymbol{\xi}_k^{\phi})}[ \log \phi_{k,v} ] \\ &\qquad + \sum_{d=1}^M \left[ \log \frac{ \Gamma(\sum_{k=1}^K \alpha_k) }{ \prod_{k=1}^K \Gamma(\alpha_k) } - \log \frac{ \Gamma(\sum_{k=1}^K \xi_{d,k}^{\theta}) }{ \prod_{k=1}^K \Gamma(\xi_{d,k}^{\theta}) } \right] \\ &\qquad + \sum_{d=1}^M \sum_{k=1}^K ( \mathbb{E}_{q(\boldsymbol{z}_d)}[ n_{d,k} ] + \alpha_k - \xi_{d,k}^{\theta} ) \mathbb{E}_{q(\boldsymbol{\theta}_d | \boldsymbol{\xi}_d^{\theta})}[ \log \theta_{d,k} ] \\ &\qquad - \sum_{d=1}^M \sum_{i=1}^{n_d} \sum_{k=1}^K q(z_{d,i} = k) \log q(z_{d,i} = k) \tag{3.102} \end{align*} $$

 また、3.3.5項や3.3.6項で導出したハイパーパラメータの更新式は

$$ \begin{aligned} \xi_{k,v}^{\phi} &= \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] + \beta_{v} \\ \xi_{d,k}^{\theta} &= \mathbb{E}_{q(\boldsymbol{z}_d)}[ n_{d,k} ] + \alpha_{k} \end{aligned} $$

である。
 この更新後の値をそれぞれ変分下限(3.102)に代入すると

$$ \begin{align*} F[q(\boldsymbol{z}, \boldsymbol{\theta}, \boldsymbol{\phi} | \boldsymbol{\xi}^{\theta}, \boldsymbol{\xi}^{\phi})] &= \sum_{k=1}^K \left[ \log \frac{ \Gamma(\sum_{v=1}^V \beta_v) }{ \prod_{v=1}^V \Gamma(\beta_v) } - \log \frac{ \Gamma( \sum_{v=1}^V \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] + \beta_{v} ) }{ \prod_{v=1}^V \Gamma( \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] + \beta_{v} ) } \right] \\ &\qquad + \sum_{d=1}^M \left[ \log \frac{ \Gamma(\sum_{k=1}^K \alpha_k) }{ \prod_{k=1}^K \Gamma(\alpha_k) } - \log \frac{ \Gamma( \sum_{k=1}^K \mathbb{E}_{q(\boldsymbol{z}_d)}[ n_{d,k} ] + \alpha_{k} ) }{ \prod_{k=1}^K \Gamma( \mathbb{E}_{q(\boldsymbol{z}_d)}[ n_{d,k} ] + \alpha_{k} ) } \right] \\ &\qquad - \sum_{d=1}^M \sum_{i=1}^{n_d} \sum_{k=1}^K q(z_{d,i} = k) \log q(z_{d,i} = k) \\ &= \sum_{k=1}^K \log \frac{ \Gamma(\sum_{v=1}^V \beta_v) }{ \prod_{v=1}^V \Gamma(\beta_v) } \frac{ \prod_{v=1}^V \Gamma( \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] + \beta_{v} ) }{ \Gamma( \sum_{v=1}^V \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] + \beta_{v} ) }\\ &\qquad + \sum_{d=1}^M \log \frac{ \Gamma(\sum_{k=1}^K \alpha_k) }{ \prod_{k=1}^K \Gamma(\alpha_k) } \frac{ \prod_{k=1}^K \Gamma( \mathbb{E}_{q(\boldsymbol{z}_d)}[ n_{d,k} ] + \alpha_{k} ) }{ \Gamma( \sum_{k=1}^K \mathbb{E}_{q(\boldsymbol{z}_d)}[ n_{d,k} ] + \alpha_{k} ) } \\ &\qquad - \sum_{d=1}^M \sum_{i=1}^{n_d} \sum_{k=1}^K q(z_{d,i} = k) \log q(z_{d,i} = k) \\ &= \sum_{k=1}^K \log \frac{ \Gamma(\sum_{v=1}^V \beta_v) }{ \Gamma( \sum_{v=1}^V \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] + \beta_{v} ) } \prod_{v=1}^V \frac{ \Gamma( \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] + \beta_{v} ) }{ \Gamma(\beta_v) } \tag{1}\\ &\qquad + \sum_{d=1}^M \log \frac{ \Gamma(\sum_{k=1}^K \alpha_k) }{ \Gamma( \sum_{k=1}^K \mathbb{E}_{q(\boldsymbol{z}_d)}[ n_{d,k} ] + \alpha_{k} ) } \prod_{k=1}^K \frac{ \Gamma( \mathbb{E}_{q(\boldsymbol{z}_d)}[ n_{d,k} ] + \alpha_{k} ) }{ \Gamma(\alpha_k) } \tag{2} \\ &\qquad - \sum_{d=1}^M \sum_{i=1}^{n_d} \sum_{k=1}^K q(z_{d,i} = k) \log q(z_{d,i} = k) \tag{3.182} \end{align*} $$

が得られる。次の不等式と対応させるために、それぞれ分母を入れ替えて式を整理している。

・ガンマ関数の不等式

 任意の$\hat{x} \geq 0$に対して、$x > 0,\ n \geq 0$のとき

$$ \frac{\Gamma(x)}{\Gamma(n + x)} \geq \frac{ \Gamma(\hat{x}) \exp\Bigl( (\hat{x} - x) b \Bigr) }{ \Gamma(n + \hat{x}) } \tag{3.183} $$
$$ b = \Psi(n + \hat{x}) - \Psi(\hat{x}) \tag{3.184} $$

 また、$n \geq 1$のとき

$$ \frac{\Gamma(n + x)}{\Gamma(x)} \geq c x^a \tag{3.185} $$
$$ \begin{align*} a &= \Bigl( \Psi(n + \hat{x}) - \Psi(\hat{x}) \Bigr) \hat{x} \tag{3.186}\\ c &= \frac{\Gamma(n + \hat{x})}{\Gamma(\hat{x})} \hat{x}^{-a} \tag{3.187} \end{align*} $$

が成り立つ。

 この不等式を用いて変分下限(3.182)の更に下限を求め、それを用いてハイパーパラメータの更新式を導出していく。

・トピック分布のパラメータの更新式の導出

 まずは、トピック分布のパラメータ$\boldsymbol{\alpha}$を求める。
 式(2)について、$\sum_{k=1}^K \alpha_k,\ \alpha_k$を$x$、$\sum_{k=1}^K \mathbb{E}_{q(\boldsymbol{z}_d)}[n_{d,k}],\ \mathbb{E}_{p(\boldsymbol{z}_d)}[n_{d,k}]$を$n$と対応させて、$a,\ b$をそれぞれ$a_{d,k}^{\theta},\ b_d^{\theta}$として、下限を求める。

 前の因子は

$$ \frac{ \Gamma \left( \sum_{k=1}^K \alpha_k \right) }{ \Gamma \left( \sum_{k=1}^K \mathbb{E}_{q(\boldsymbol{z}_d)}[ n_{d,k} ] + \alpha_k \right) } \geq \frac{ \Gamma \left( \sum_{k=1}^K \hat{\alpha}_k \right) \exp \Bigl( ( \sum_{k=1}^K \hat{\alpha}_k - \alpha_k ) b_d^{\theta} \Bigr) }{ \Gamma \left( \sum_{k=1}^K \mathbb{E}_{q(\boldsymbol{z}_d)}[ n_{d,k} ] + \hat{\alpha}_k \right) } $$
$$ b_d^{\theta} = \Psi \left( \sum_{k=1}^K \mathbb{E}_{q(\boldsymbol{z}_d)}[ n_{d,k} ] + \hat{\alpha}_k \right) - \Psi \left( \sum_{k=1}^K \hat{\alpha}_k \right) $$

となり、また後の因子は

$$ \frac{ \Gamma \left( \mathbb{E}_{q(\boldsymbol{z}_d)}[ n_{d,k} ] + \alpha_{k} \right) }{ \Gamma(\alpha_k) } \geq \frac{ \Gamma \left( \mathbb{E}_{q(\boldsymbol{z}_d)}[ n_{d,k} ] + \hat{\alpha}_k \right) }{ \Gamma(\hat{\alpha}_k) } \hat{\alpha}_k^{-a_{d,k}^{\theta}} \alpha_k^{a_{d,k}^{\theta}} $$
$$ a_{d,k}^{\theta} = \Bigl( \Psi( \mathbb{E}_{q(\boldsymbol{z}_d)}[ n_{d,k} ] + \hat{\alpha}_k ) - \Psi(\hat{\alpha}_k) \Bigr) \hat{\alpha}_k $$

となる。
 従って、式(2)の下限はこれらを組み併せて

$$ \begin{align*} &\sum_{d=1}^M \log \frac{ \Gamma \left( \sum_{k=1}^K \alpha_k \right) }{ \Gamma \left( \sum_{k=1}^K \mathbb{E}_{q(\boldsymbol{z}_d)}[ n_{d,k} ] + \alpha_{k} \right) } \prod_{k=1}^K \frac{ \Gamma \left( \mathbb{E}_{q(\boldsymbol{z}_d)}[ n_{d,k} ] + \alpha_{k} \right) }{ \Gamma(\alpha_k) } \tag{2}\\ &\geq \sum_{d=1}^M \log \frac{ \Gamma \left( \sum_{k=1}^K \hat{\alpha}_k \right) \exp \Bigl( ( \sum_{k=1}^K \hat{\alpha}_k - \alpha_k ) b_d^{\theta} \Bigr) }{ \Gamma \left( \sum_{k=1}^K \mathbb{E}_{q(\boldsymbol{z}_d)}[ n_{d,k} ] + \hat{\alpha}_k \right) } \prod_{k=1}^K \frac{ \Gamma \Bigl( \mathbb{E}_{q(\boldsymbol{z}_d)}[ n_{d,k} ] + \hat{\alpha}_k \Bigr) }{ \Gamma(\hat{\alpha}_k) } \hat{\alpha}_k^{-a_{d,k}^{\theta}} \alpha_k^{a_{d,k}^{\theta}} \\ &= \sum_{d=1}^M \left[ \log \Gamma \Bigl( \sum_{k=1}^K \hat{\alpha}_k \Bigr) + \Bigl( \sum_{k=1}^K \hat{\alpha}_k - \alpha_k \Bigr) b_d^{\theta} - \log \Gamma \Bigl( \sum_{k=1}^K \mathbb{E}_{q(\boldsymbol{z}_d)}[ n_{d,k} ] + \hat{\alpha}_k \Bigr) \right.\\ &\qquad \left. + \sum_{k=1}^K \Bigl\{ \log \Gamma \Bigl( \mathbb{E}_{q(\boldsymbol{z}_d)}[ n_{d,k} ] + \hat{\alpha}_k \Bigr) - \log \Gamma(\hat{\alpha}_k) - a_{d,k}^{\theta} \log \hat{\alpha}_k + a_{d,k}^{\theta} \log \alpha_k \Bigr\} \right] \\ &= \sum_{d=1}^M \left[ - b_d^{\theta} \sum_{k=1}^K \alpha_k + \sum_{k=1}^K a_{d,k}^{\theta} \log \alpha_k \right] + ({\rm const.}) \equiv F[\alpha_k] \tag{3.190} \end{align*} $$

となる。(どうせ微分すると消えるので)$\boldsymbol{\alpha}$に関係しない項をまとめて(const.)とする。
 この下限$F[\alpha_k]$を最大にする$\boldsymbol{\alpha}$を求めるために、$\alpha_k$で微分して0となる停留点を求める。

$$ \begin{aligned} \frac{\partial F[\alpha_k]}{\partial \alpha_k} = \sum_{d=1}^M \left[ - b_d^{\theta} + \frac{1}{\alpha_k} a_{d,k}^{\theta} \right] &= 0 \\ \alpha_k &= \frac{ \sum_{d=1}^M a_{d,k}^{\theta} }{ \sum_{d=1}^M b_d^{\theta} } \end{aligned} $$

 $a_{d,k}^{\theta},\ b_d^{\theta}$をそれぞれ代入すると

$$ \alpha_k = \hat{\alpha}_k \frac{ \sum_{d=1}^M \left[ \Psi \left( \mathbb{E}_{q(\boldsymbol{z}_d)}[ n_{d,k} ] + \hat{\alpha}_k \right) - \Psi(\hat{\alpha}_k) \right] }{ \sum_{d=1}^M \left[ \Psi \left( \sum_{k=1}^K \mathbb{E}_{q(\boldsymbol{z}_d)}[ n_{d,k} ] + \alpha_k \right) - \Psi \left( \sum_{k=1}^K \hat{\alpha}_k \right) \right] } \tag{3.191} $$

が得られる。
 $\hat{\alpha}_k$を1ステップ前の値とすれば、$\alpha_k$に対する固定点反復法が得られた。

・単語分布のパラメータの更新式の導出

・非対称

 同様にして、単語分布のパラメータ$\boldsymbol{\beta}$を求める。
 式(1)について、$\sum_{v=1}^V \beta_v,\ \beta_v$を$x$、$\sum_{v=1}^V \mathbb{E}_{q(\boldsymbol{z})}[n_{k,v}],\ \mathbb{E}_{p(\boldsymbol{z}_d)}[n_{k,v}]$を$n$と対応させて、$a,\ b$をそれぞれ$a_{k,v}^{\phi},\ b_k^{\phi}$として、下限を求める。

 前の因子は

$$ \frac{ \Gamma \left( \sum_{v=1}^V \beta_v \right) }{ \Gamma \left( \sum_{v=1}^V \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] + \beta_{v} \right) } \geq \frac{ \Gamma \left( \sum_{v=1}^V \hat{\beta}_v \right) \exp \Bigl( ( \sum_{v=1}^V \hat{\beta}_v - \beta_v ) b_k^{\phi} \Bigr) }{ \Gamma \left( \sum_{v=1}^V \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] + \hat{\beta}_{v} \right) } $$
$$ b_k^{\phi} = \Psi \left( \sum_{v=1}^V \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] + \hat{\beta}_{v} \right) - \Psi \left( \sum_{v=1}^V \hat{\beta}_v \right) $$

となり。また後ろの因子は

$$ \frac{ \Gamma \left( \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] + \beta_v \right) }{ \Gamma(\beta_v) } \geq \frac{ \Gamma \left( \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] + \hat{\beta}_v \right) }{ \Gamma(\hat{\beta}_v) } \hat{\beta}_v^{-a_{k,v}^{\phi}} \beta_v^{a_{k,v}^{\phi}} $$
$$ a_{k,v}^{\phi} = \Bigl( \Psi( \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] + \hat{\beta}_v ) - \Psi(\hat{\beta}_v) \Bigr) \hat{\beta}_v $$

となる。
 従って、式(1)の下限はこれらを組み併せて

$$ \begin{align*} &\sum_{k=1}^K \log \frac{ \Gamma \left( \sum_{v=1}^V \beta_v \right) }{ \Gamma \left( \sum_{v=1}^V \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] + \beta_{v} \right) } \prod_{v=1}^V \frac{ \Gamma \left( \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] + \beta_v \right) }{ \Gamma(\beta_v) } \tag{1}\\ &\geq \sum_{k=1}^K \log \frac{ \Gamma \left( \sum_{v=1}^V \hat{\beta}_v \right) \exp \Bigl( ( \sum_{v=1}^V \hat{\beta}_v - \beta_v ) b_k^{\phi} \Bigr) }{ \Gamma \left( \sum_{v=1}^V \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] + \hat{\beta}_{v} \right) } \prod_{v=1}^V \frac{ \Gamma \left( \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] + \hat{\beta}_v \right) }{ \Gamma(\hat{\beta}_v) } \hat{\beta}_v^{-a_{k,v}^{\phi}} \beta_v^{a_{k,v}^{\phi}} \\ &= \sum_{k=1}^K \left[ \log \Gamma \Bigl( \sum_{v=1}^V \hat{\beta}_v \Bigr) + \Bigl( \sum_{v=1}^V \hat{\beta}_v - \beta_v \Bigr) b_k^{\phi} - \log \Gamma \Bigl( \sum_{v=1}^V \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] + \hat{\beta}_{v} \Bigr) \right.\\ &\qquad \left. + \sum_{v=1}^V \left\{ \log \Gamma \Bigl( \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] + \hat{\beta}_v \Bigr) - \log \Gamma(\hat{\beta}_v) - a_{k,v}^{\phi} \log \hat{\beta}_v + a_{k,v}^{\phi} \log \beta_v \right\} \right] \\ &= \sum_{k=1}^K \left[ - b_k^{\phi} \sum_{v=1}^V \beta_v + \sum_{v=1}^V a_{k,v}^{\phi} \log \beta_v \right] + ({\rm const.}) \equiv F[\beta_v] \end{align*} $$

となる。(どうせ微分すると消えるので)$\boldsymbol{\beta}$と関係しない項を(const.)とする。
 この下限$F[\beta_v]$を最大にする$\boldsymbol{\beta}$を求めるために、$\beta_v$で微分して0となる停留点を求める。

$$ \begin{aligned} \frac{\partial F[\beta_v]}{\partial \beta_v} = \sum_{k=1}^K \left[ - b_k^{\phi} + \frac{1}{\beta_v} a_{k,v}^{\phi} \right] &= 0 \\ \beta_v &= \frac{ \sum_{k=1}^K a_{k,v}^{\phi} }{ \sum_{k=1}^K b_k^{\phi} } \end{aligned} $$

 $a_{k,v}^{\phi},\ b_k^{\phi}$をそれぞれ代入すると

$$ \beta_v = \hat{\beta}_v \frac{ \sum_{k=1}^K \left[ \Psi \left( \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] + \hat{\beta}_v \right) - \Psi(\hat{\beta}_v) \right] }{ \sum_{k=1}^K \left[ \Psi \left( \sum_{v=1}^V \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] + \hat{\beta}_{v} \right) - \Psi \left( \sum_{v=1}^V \hat{\beta}_v \right) \right] } \tag{3.192} $$

が得られる。
 $\hat{\beta}_v$を1ステップ前の値とすれば、$\beta_v$に対する固定点反復法が得られた。

・対称

 $\boldsymbol{\beta}$は対称とした方が良い結果となることが経験的に知られている。全ての単語に対して同じ値$\beta$を用いる場合の更新式も求める。

 $\boldsymbol{\beta} = (\beta, \beta, \cdots, \beta)$のとき、$\sum_{v=1}^V \beta = V \beta$なので、式(1)は

$$ \begin{align*} &\sum_{k=1}^K \log \frac{ \Gamma(V \beta) }{ \Gamma \left( \sum_{v=1}^V \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] + \beta \right) } \prod_{v=1}^V \frac{ \Gamma \left( \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] + \beta \right) }{ \Gamma(\beta) } \tag{1}\\ &\geq \sum_{k=1}^K \left[ - b_k^{\phi} V \beta + \sum_{v=1}^V a_{k,v}^{\phi} \log \beta \right] + ({\rm const.}) \equiv F[\beta] \end{align*} $$

となる。
 $a_{k,v}^{\phi},\ b_k^{\phi}$をそれぞれ代入すると

$$ \begin{align*} F[\beta] &\equiv \sum_{k=1}^K \left[ - \left( \Psi \Bigl( \sum_{v=1}^V \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] + \hat{\beta} \Bigr) - \Psi(V \hat{\beta}) \right) V \beta + \sum_{v=1}^V \Bigl( \Psi( \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] + \hat{\beta} ) - \Psi(\hat{\beta}) \Bigr) \hat{\beta} \log \beta \right] + ({\rm const.}) \tag{3.193} \end{align*} $$

 $\beta$で微分して0となる停留点を求める。

$$ \frac{\partial F[\beta]}{\partial \beta} = \sum_{k=1}^K \left[ - \left( \Psi \Bigl( \sum_{v=1}^V \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] + \hat{\beta} \Bigr) - \Psi(V \hat{\beta}) \right) V + \frac{1}{\beta} \sum_{v=1}^V \Bigl( \Psi( \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] + \hat{\beta} ) - \Psi(\hat{\beta}) \Bigr) \hat{\beta} \right] = 0 $$

 これを解くと

$$ \begin{align*} V \beta \sum_{k=1}^K \left[ \Psi \left( \sum_{v=1}^V \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] + \hat{\beta} \right) - \Psi(V \hat{\beta}) \right] &= \hat{\beta} \sum_{k=1}^K \sum_{v=1}^V \left[ \Psi \Bigl( \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] + \hat{\beta} \Bigr) - \Psi(\hat{\beta}) \right] \\ \beta &= \frac{\hat{\beta}}{V} \frac{ \sum_{k=1}^K \sum_{v=1}^V \left[ \Psi \left( \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] + \hat{\beta} \right) - \Psi(\hat{\beta}) \right] }{ \sum_{k=1}^K \left[ \Psi \left( \sum_{v=1}^V \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] + \hat{\beta} \right) - \Psi(V \hat{\beta}) \right] } \tag{3.194} \end{align*} $$

が得られる。($\sum_v,\ \sum_k$がどこまで影響するのか注意すること。例えば$\Psi( \sum_{v=1}^V \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] + \hat{\beta} )$は$\Psi( V \hat{\beta} + \sum_{v=1}^V \mathbb{E}_{q(\boldsymbol{z})}[ n_{k,v} ] )$である。)

参考文献

  • 佐藤一誠『トピックモデルによる統計的潜在意味解析』(自然言語処理シリーズ 8)奥村学監修,コロナ社,2015年.

おわりに

 これは青本でやったのですぐできた。ただ、不動点反復法の解釈が間違ってたことに気付いた…直さねば。

【次節の内容】

www.anarchive-beta.com