からっぽのしょこ

読んだら書く!書いたら読む!同じ事は二度調べ(たく)ない

3.3.8:LDAの周辺化変分ベイズ法【白トピックモデルのノート】

はじめに

 『トピックモデルによる統計的潜在意味解析』の学習時のメモです。基本的な内容は、数式の行間を読んで埋めたものになります。本と併せて読んでください。

 この記事では、3.3.8節の$\boldsymbol{\theta}_d, \boldsymbol{\phi}_k$を周辺化した周辺化変分ベイズ法について書いています。

 数学よく解らない自分が理解できるレベルまで落として数式を書き下していますので、分かる人にはかなりくどいです。

【実装編】

www.anarchive-beta.com

【前節の内容】

www.anarchive-beta.com

【他の節一覧】

www.anarchive-beta.com

【この節の内容】

3.3.8 LDAの周辺化変分ベイズ法

 $\boldsymbol{\theta}_d, \boldsymbol{\phi}_k$を周辺化した周辺化変分ベイズ法について説明する。

 $\boldsymbol{\theta}_d, \boldsymbol{\phi}_k$を周辺化した

$$ p(\boldsymbol{w}, \boldsymbol{z} | \boldsymbol{\alpha}, \boldsymbol{\beta}) = \int p(\boldsymbol{w}, \boldsymbol{z}, \boldsymbol{\theta}, \boldsymbol{\phi} | \boldsymbol{\alpha}, \boldsymbol{\beta}) d\boldsymbol{\theta} d\boldsymbol{\phi} $$

を用いる。

・変分下限の導出

$$ \begin{align} \log p(\boldsymbol{w} | \boldsymbol{\alpha}, \boldsymbol{\beta}) &= \log \sum_{\boldsymbol{z}} p(\boldsymbol{w}, \boldsymbol{z} | \boldsymbol{\alpha}, \boldsymbol{\beta}) \\ &= \log \sum_{\boldsymbol{z}} q(\boldsymbol{z}) \frac{ p(\boldsymbol{w}, \boldsymbol{z} | \boldsymbol{\alpha}, \boldsymbol{\beta}) }{ q(\boldsymbol{z}) } \\ &\geq \sum_{\boldsymbol{z}} q(\boldsymbol{z}) \log \frac{ p(\boldsymbol{w}, \boldsymbol{z} | \boldsymbol{\alpha}, \boldsymbol{\beta}) }{ q(\boldsymbol{z}) } \equiv F_{\rm CVB}[q(\boldsymbol{z})] \tag{3.111} \end{align} $$


 この周辺化変分ベイズ法の変分下限$F_{\rm CVB}[q(\boldsymbol{z})]$と変分ベイズ法の変分下限(3.82)との関係を見る。

$$ F[q(\boldsymbol{z}, \boldsymbol{\theta}, \boldsymbol{\phi})] = \int \sum_{\boldsymbol{z}} q(\boldsymbol{z}, \boldsymbol{\theta}, \boldsymbol{\phi}) \log \frac{ p(\boldsymbol{w}, \boldsymbol{z}, \boldsymbol{\phi}, \boldsymbol{\theta} | \boldsymbol{\alpha}, \boldsymbol{\beta}) }{ q(\boldsymbol{z}, \boldsymbol{\theta}, \boldsymbol{\phi}) } d\boldsymbol{\phi} d\boldsymbol{\theta} \tag{3.82} $$

 $p(\boldsymbol{w}, \boldsymbol{z}, \boldsymbol{\phi}, \boldsymbol{\theta} | \boldsymbol{\alpha}, \boldsymbol{\beta}) = p(\boldsymbol{\phi}, \boldsymbol{\theta} | \boldsymbol{w}, \boldsymbol{z}, \boldsymbol{\alpha}, \boldsymbol{\beta}) p(\boldsymbol{w}, \boldsymbol{z} | \boldsymbol{\alpha}, \boldsymbol{\beta})$、$q(\boldsymbol{z}, \boldsymbol{\theta}, \boldsymbol{\phi}) = q(\boldsymbol{\theta}, \boldsymbol{\phi} | \boldsymbol{z}) q(\boldsymbol{z})$より

$$ \begin{align} F[ q(\boldsymbol{\theta}, \boldsymbol{\phi} | \boldsymbol{z}) q(\boldsymbol{z}) ] &= \int \sum_{\boldsymbol{z}} q(\boldsymbol{\theta}, \boldsymbol{\phi} | \boldsymbol{z}) q(\boldsymbol{z}) \log \frac{ p(\boldsymbol{\phi}, \boldsymbol{\theta} | \boldsymbol{w}, \boldsymbol{z}, \boldsymbol{\alpha}, \boldsymbol{\beta}) p(\boldsymbol{w}, \boldsymbol{z} | \boldsymbol{\alpha}, \boldsymbol{\beta}) }{ q(\boldsymbol{\theta}, \boldsymbol{\phi} | \boldsymbol{z}) q(\boldsymbol{z}) } d\boldsymbol{\phi} d\boldsymbol{\theta} \\ &= \int \sum_{\boldsymbol{z}} q(\boldsymbol{\theta}, \boldsymbol{\phi} | \boldsymbol{z}) q(\boldsymbol{z}) \left( \log \frac{ p(\boldsymbol{\phi}, \boldsymbol{\theta} | \boldsymbol{w}, \boldsymbol{z}, \boldsymbol{\alpha}, \boldsymbol{\beta}) }{ q(\boldsymbol{\theta}, \boldsymbol{\phi} | \boldsymbol{z}) } + \log \frac{ p(\boldsymbol{w}, \boldsymbol{z} | \boldsymbol{\alpha}, \boldsymbol{\beta}) }{ q(\boldsymbol{z}) } \right) d\boldsymbol{\phi} d\boldsymbol{\theta} \\ &= \int \sum_{\boldsymbol{z}} q(\boldsymbol{\theta}, \boldsymbol{\phi} | \boldsymbol{z}) q(\boldsymbol{z}) \log \frac{ p(\boldsymbol{\phi}, \boldsymbol{\theta} | \boldsymbol{w}, \boldsymbol{z}, \boldsymbol{\alpha}, \boldsymbol{\beta}) }{ q(\boldsymbol{\theta}, \boldsymbol{\phi} | \boldsymbol{z}) } d\boldsymbol{\phi} d\boldsymbol{\theta} + \sum_{\boldsymbol{z}} q(\boldsymbol{z}) \log \frac{ p(\boldsymbol{w}, \boldsymbol{z} | \boldsymbol{\alpha}, \boldsymbol{\beta}) }{ q(\boldsymbol{z}) } \tag{3.114} \end{align} $$

となる。
 $q(\boldsymbol{\theta}, \boldsymbol{\phi} | \boldsymbol{z}) = p(\boldsymbol{\phi}, \boldsymbol{\theta} | \boldsymbol{w}, \boldsymbol{z}, \boldsymbol{\alpha}, \boldsymbol{\beta})$(完全に$\boldsymbol{\theta}, \boldsymbol{\phi}$を推定できた)とすると($\log 1 = 0$より)

$$ \begin{align} F[ p(\boldsymbol{\phi}, \boldsymbol{\theta} | \boldsymbol{w}, \boldsymbol{z}, \boldsymbol{\alpha}, \boldsymbol{\beta}) q(\boldsymbol{z}) ] &= \int \sum_{\boldsymbol{z}} p(\boldsymbol{\phi}, \boldsymbol{\theta} | \boldsymbol{w}, \boldsymbol{z}, \boldsymbol{\alpha}, \boldsymbol{\beta}) q(\boldsymbol{z}) \log \frac{ p(\boldsymbol{\phi}, \boldsymbol{\theta} | \boldsymbol{w}, \boldsymbol{z}, \boldsymbol{\alpha}, \boldsymbol{\beta}) }{ p(\boldsymbol{\phi}, \boldsymbol{\theta} | \boldsymbol{w}, \boldsymbol{z}, \boldsymbol{\alpha}, \boldsymbol{\beta}) } d\boldsymbol{\phi} d\boldsymbol{\theta} + \sum_{\boldsymbol{z}} q(\boldsymbol{z}) \log \frac{ p(\boldsymbol{w}, \boldsymbol{z} | \boldsymbol{\alpha}, \boldsymbol{\beta}) }{ q(\boldsymbol{z}) } \\ &= \sum_{\boldsymbol{z}} q(\boldsymbol{z}) \log \frac{ p(\boldsymbol{w}, \boldsymbol{z} | \boldsymbol{\alpha}, \boldsymbol{\beta}) }{ q(\boldsymbol{z}) } = F_{\rm CVB}[q(\boldsymbol{z})] \tag{3.115} \end{align} $$

$F_{\rm CVB}[q(\boldsymbol{z})]$と等しくなる。従って

$$ F[q(\boldsymbol{z}, \boldsymbol{\theta}, \boldsymbol{\phi})] = F[ q(\boldsymbol{\theta}, \boldsymbol{\phi} | \boldsymbol{z}) q(\boldsymbol{z}) ] \leq F[ p(\boldsymbol{\phi}, \boldsymbol{\theta} | \boldsymbol{w}, \boldsymbol{z}, \boldsymbol{\alpha}, \boldsymbol{\beta}) q(\boldsymbol{z}) ] = F_{\rm CVB}[q(\boldsymbol{z})] \tag{3.116} $$

という関係が分かる。

・潜在トピックの近似事後分布の導出

 変分下限から$q(z_{d,i})$に関係する項を取り出して$\tilde{F}[q(z_{d,i})]$とおく。
 ここで

$$ \begin{aligned} p(\boldsymbol{w}, \boldsymbol{z} | \boldsymbol{\alpha}, \boldsymbol{\beta}) &= p(w_{d,i}, z_{d,i}, \boldsymbol{w}^{\backslash d,i}, \boldsymbol{z}^{\backslash d,i} | \boldsymbol{\alpha}, \boldsymbol{\beta}) \\ &= p(w_{d,i}, z_{d,i} | \boldsymbol{w}^{\backslash d,i}, \boldsymbol{z}^{\backslash d,i}, \boldsymbol{\alpha}, \boldsymbol{\beta}) p(\boldsymbol{w}^{\backslash d,i}, \boldsymbol{z}^{\backslash d,i} | \boldsymbol{\alpha}, \boldsymbol{\beta}) \end{aligned} $$

である。

$$ \begin{align} \tilde{F}[q(z_{d,i})] &= \sum_{\boldsymbol{z}} q(z_{d,i}) q(\boldsymbol{z}^{\backslash d,i}) \log \frac{ p(w_{d,i}, z_{d,i} | \boldsymbol{w}^{\backslash d,i}, \boldsymbol{z}^{\backslash d,i}, \boldsymbol{\alpha}, \boldsymbol{\beta}) }{ q(z_{d,i}) } \tag{3.118}\\ &= \sum_{\boldsymbol{z}} q(z_{d,i}) q(\boldsymbol{z}^{\backslash d,i}) \Bigl( \log p(w_{d,i}, z_{d,i} | \boldsymbol{w}^{\backslash d,i}, \boldsymbol{z}^{\backslash d,i}, \boldsymbol{\alpha}, \boldsymbol{\beta}) - \log q(z_{d,i}) \Bigr) \\ &= \sum_{\boldsymbol{z}} q(z_{d,i}) q(\boldsymbol{z}^{\backslash d,i}) \log p(w_{d,i}, z_{d,i} | \boldsymbol{w}^{\backslash d,i}, \boldsymbol{z}^{\backslash d,i}, \boldsymbol{\alpha}, \boldsymbol{\beta}) - \sum_{z_{d,i}} q(z_{d,i}) \log q(z_{d,i}) \end{align} $$

 この式を$q(z_{d,i} = k)$で微分する。

$$ \begin{aligned} \frac{\partial \tilde{F}[q(z_{d,i} = k)]}{\partial q(z_{d,i} = k)} &= \sum_{\boldsymbol{z}} q(\boldsymbol{z}^{\backslash d,i}) \log p(w_{d,i} = v, z_{d,i} = k | \boldsymbol{w}^{\backslash d,i}, \boldsymbol{z}^{\backslash d,i}, \boldsymbol{\alpha}, \boldsymbol{\beta}) - \log q(z_{d,i} = k) - q(z_{d,i} = k) \frac{1}{q(z_{d,i} = k)} \\ &= \sum_{\boldsymbol{z}} q(\boldsymbol{z}^{\backslash d,i}) \log p(w_{d,i} = v, z_{d,i} = k | \boldsymbol{w}^{\backslash d,i}, \boldsymbol{z}^{\backslash d,i}, \boldsymbol{\alpha}, \boldsymbol{\beta}) - \log q(z_{d,i} = k) - 1 \end{aligned} $$

 $\frac{\partial \tilde{F}[q(z_{d,i} = k)]}{\partial q(z_{d,i} = k)} = 0$となる$q(z_{d,i} = k)$を求める。

$$ \begin{aligned} \sum_{\boldsymbol{z}} q(\boldsymbol{z}^{\backslash d,i}) \log p(w_{d,i} = v, z_{d,i} = k | \boldsymbol{w}^{\backslash d,i}, \boldsymbol{z}^{\backslash d,i}, \boldsymbol{\alpha}, \boldsymbol{\beta}) &- \log q(z_{d,i} = k) - 1 = 0 \\ \log q(z_{d,i} = k) &= \sum_{\boldsymbol{z}} q(\boldsymbol{z}^{\backslash d,i}) \log p(w_{d,i} = v, z_{d,i} = k | \boldsymbol{w}^{\backslash d,i}, \boldsymbol{z}^{\backslash d,i}, \boldsymbol{\alpha}, \boldsymbol{\beta}) - 1 \\ q(z_{d,i} = k) &= \exp \left[ \sum_{\boldsymbol{z}} q(\boldsymbol{z}^{\backslash d,i}) \log p(w_{d,i} = v, z_{d,i} = k | \boldsymbol{w}^{\backslash d,i}, \boldsymbol{z}^{\backslash d,i}, \boldsymbol{\alpha}, \boldsymbol{\beta}) - 1 \right] \\ &\propto \exp \left[ \sum_{\boldsymbol{z}} q(\boldsymbol{z}^{\backslash d,i}) \log p(w_{d,i} = v, z_{d,i} = k | \boldsymbol{w}^{\backslash d,i}, \boldsymbol{z}^{\backslash d,i}, \boldsymbol{\alpha}, \boldsymbol{\beta}) \right] \\ &= \exp \mathbb{E}_{q(\boldsymbol{z}^{\backslash d,i})} \left[ \log p(w_{d,i} = v, z_{d,i} = k | \boldsymbol{w}^{\backslash d,i}, \boldsymbol{z}^{\backslash d,i}, \boldsymbol{\alpha}, \boldsymbol{\beta}) \right] \end{aligned} $$

 ここで、式(3.38)の計算過程より

$$ \begin{align} p(w_{d,i} = v, z_{d,i} = k | \boldsymbol{w}^{\backslash d,i}, \boldsymbol{z}^{\backslash d,i}, \boldsymbol{\alpha}, \boldsymbol{\beta}) &= p(w_{d,i} = v | z_{d,i} = k, \boldsymbol{w}^{\backslash d,i}, \boldsymbol{z}^{\backslash d,i}, \boldsymbol{\alpha}, \boldsymbol{\beta}) p(z_{d,i} = k | \boldsymbol{w}^{\backslash d,i}, \boldsymbol{z}^{\backslash d,i}, \boldsymbol{\alpha}, \boldsymbol{\beta}) \\ &= \frac{ n_{k,v}^{\backslash d,i} + \beta_v }{ \sum_{v'=1}^V n_{k,v'}^{\backslash d,i} + \beta_{v'} } \frac{ n_{d,k}^{\backslash d,i} + \alpha_k }{ n_d^{\backslash d,i} + \sum_{k'=1}^K \alpha_{k'} } \tag{3.38} \end{align} $$

である。
 よって

$$ \begin{align} q(z_{d,i} = k) &\propto \exp \mathbb{E}_{q(\boldsymbol{z}^{\backslash d,i})} \left[ \log p(w_{d,i} = v, z_{d,i} = k | \boldsymbol{w}^{\backslash d,i}, \boldsymbol{z}^{\backslash d,i}, \boldsymbol{\alpha}, \boldsymbol{\beta}) \right] \\ &= \exp \mathbb{E}_{q(\boldsymbol{z}^{\backslash d,i})} \left[ \log \frac{ n_{k,v}^{\backslash d,i} + \beta_v }{ \sum_{v'=1}^V n_{k,v'}^{\backslash d,i} + \beta_{v'} } \frac{ n_{d,k}^{\backslash d,i} + \alpha_k }{ n_d^{\backslash d,i} + \sum_{k'=1}^K \alpha_{k'} } \right] \\ &\propto \exp \mathbb{E}_{q(\boldsymbol{z}^{\backslash d,i})} \left[ \log \frac{ n_{k,v}^{\backslash d,i} + \beta_v }{ \sum_{v'=1}^V n_{k,v'}^{\backslash d,i} + \beta_{v'} } ( n_{d,k}^{\backslash d,i} + \alpha_k ) \right] \\ &= \exp \mathbb{E}_{q(\boldsymbol{z}^{\backslash d,i})} \left[ \log( n_{k,v}^{\backslash d,i} + \beta_v ) - \log( \sum_{v'=1}^V n_{k,v'}^{\backslash d,i} + \beta_{v'} ) + \log( n_{d,k}^{\backslash d,i} + \alpha_k ) \right] \\ &= \exp \mathbb{E}_{q(\boldsymbol{z}^{\backslash d,i})} \left[ \log( n_{k,v}^{\backslash d,i} + \beta_v ) \right] \frac{ 1 }{ \exp \mathbb{E}_{q(\boldsymbol{z}^{\backslash d,i})} \left[ \log( \sum_{v'=1}^V n_{k,v'}^{\backslash d,i} + \beta_{v'} ) \right] } \exp \mathbb{E}_{q(\boldsymbol{z}^{\backslash d,i})} \left[ \log( n_{d,k}^{\backslash d,i} + \alpha_k ) \right] \\ &= \frac{ \exp \mathbb{E}_{q(\boldsymbol{z}^{\backslash d,i})} \left[ \log( n_{k,v}^{\backslash d,i} + \beta_v ) \right] }{ \exp \mathbb{E}_{q(\boldsymbol{z}^{\backslash d,i})} \left[ \log( \sum_{v'=1}^V n_{k,v'}^{\backslash d,i} + \beta_{v'} ) \right] } \exp \mathbb{E}_{q(\boldsymbol{z}^{\backslash d,i})} \left[ \log( n_{d,k}^{\backslash d,i} + \alpha_k ) \right] \tag{3.120} \end{align} $$

が得られる。
 しかしこの式には解析的に積分できない項があるため、近似計算を行うことにする。

・テイラー展開による近似

 テイラー展開を用いて近似を考える。

・テイラー展開

 対数関数$\log x$をaの周りで2次までテイラー展開すると

$$ \log x \approx \log a + \frac{1}{a} (x - a) - \frac{1}{2 a^2} (x - a)^2 \tag{3.121} $$

である。これを$a = \mathbb{E}[x]$として、更に全体の期待値をとると

$$ \begin{align} \mathbb{E}[\log x] &\approx \mathbb{E} \left[ \log \mathbb{E}[x] + \frac{1}{\mathbb{E}[x]} (x - \mathbb{E}[x]) - \frac{1}{2 \mathbb{E}[x]^2} (x - \mathbb{E}[x])^2 \right] \\ &= \mathbb{E} \Bigl[ \log \mathbb{E}[x] \Bigr] + \mathbb{E} \left[ \frac{1}{\mathbb{E}[x]} (x - \mathbb{E}[x]) \right] - \mathbb{E} \left[ \frac{1}{2 \mathbb{E}[x]^2} (x - \mathbb{E}[x])^2 \right] \\ &= \log \mathbb{E}[x] + \frac{1}{\mathbb{E}[x]} (\mathbb{E}[x] - \mathbb{E}[x]) - \frac{1}{2 \mathbb{E}[x]^2} \mathbb{E} \Bigl[ (x - \mathbb{E}[x])^2 \Bigr] \\ &= \log \mathbb{E}[x] - \frac{ \mathbb{V}[x] }{ 2 \mathbb{E}[x]^2 } \tag{3.122} \end{align} $$

になる。また、$\log(x + b)$に対して$a = \mathbb{E}[x] + b$とすると

$$ \begin{align} \mathbb{E}[\log(x + b)] &\approx \mathbb{E} \left[ \log ( \mathbb{E}[x] + b ) + \frac{1}{\mathbb{E}[x] + b} \{ x + b - (\mathbb{E}[x] + b) \} - \frac{1}{2 (\mathbb{E}[x] + b)^2} \{ x + b - (\mathbb{E}[x] + b) \}^2 \right] \\ &= \mathbb{E} \Bigl[ \log ( \mathbb{E}[x] + b ) \Bigr] + \mathbb{E} \left[ \frac{1}{\mathbb{E}[x] + b} (x - \mathbb{E}[x]) \right] - \mathbb{E} \left[ \frac{1}{2 (\mathbb{E}[x] + b)^2} (x - \mathbb{E}[x])^2 \right] \\ &= \log ( \mathbb{E}[x] + b ) + \frac{1}{\mathbb{E}[x] + b} (\mathbb{E}[x] - \mathbb{E}[x]) - \frac{1}{2 (\mathbb{E}[x] + b)^2} \mathbb{E} \Bigl[ (x - \mathbb{E}[x])^2 \Bigr] \\ &= \log ( \mathbb{E}[x] + b ) - \frac{ \mathbb{V}[x] }{ 2 (\mathbb{E}[x] + b)^2 } \tag{3.122'} \end{align} $$

になる。

 式(3.122')を用いて、式(3.120)を近似していく。

 まずは、分子の項$\log(n_{k,v}^{\backslash d,i} + \beta_v)$を$\mathbb{E}[n_{k,v}^{\backslash d,i}] + \beta_v$の周りでテイラー展開する。

$$ \mathbb{E}_{q(\boldsymbol{z}^{\backslash d,i})} \left[ \log( n_{k,v}^{\backslash d,i} + \beta_v ) \right] \approx \log ( \mathbb{E}[ n_{k,v}^{\backslash d,i} ] + \beta_v ) - \frac{ \mathbb{V}[ n_{k,v}^{\backslash d,i} ] }{ 2 ( \mathbb{E}[ n_{k,v}^{\backslash d,i} ] + \beta_v )^2 } $$

 次に、分母の項$\sum_{v=1}^V \log(n_{k,v}^{\backslash d,i} + \beta_v) = \log(n_{k,\cdot}^{\backslash d,i} + \beta_{\cdot})$を$\mathbb{E}[n_{k,\cdot}^{\backslash d,i}] + \beta_{\cdot}$の周りでテイラー展開する。

$$ \mathbb{E}_{q(\boldsymbol{z}^{\backslash d,i})} \left[ \log( n_{k,\cdot}^{\backslash d,i} + \beta_{\cdot} ) \right] \approx \log ( \mathbb{E}[ n_{k,\cdot}^{\backslash d,i} ] + \beta_{\cdot} ) - \frac{ \mathbb{V}[ n_{k,\cdot}^{\backslash d,i} ] }{ 2 ( \mathbb{E}[ n_{k,\cdot}^{\backslash d,i} ] + \beta_{\cdot} )^2 } $$

 最後に、後の項$\log(n_{d,k}^{\backslash d,i} + \alpha_k)$を$\mathbb{E}[n_{d,k}^{\backslash d,i}] + \alpha_k$の周りでテイラー展開する。

$$ \mathbb{E}_{q(\boldsymbol{z}^{\backslash d,i})} \left[ \log( n_{d,k}^{\backslash d,i} + \alpha_k ) \right] \approx \log ( \mathbb{E}[ n_{d,k}^{\backslash d,i} ] + \alpha_k ) - \frac{ \mathbb{V}[ n_{d,k}^{\backslash d,i} ] }{ 2 ( \mathbb{E}[ n_{d,k}^{\backslash d,i} ] + \alpha_k )^2 } \tag{3.123} $$

 これらを式(3.120)に代入すると

$$ \begin{align} q(z_{d,i} = k) &\propto \frac{ \exp \mathbb{E}_{q(\boldsymbol{z}^{\backslash d,i})} \left[ \log( n_{k,v}^{\backslash d,i} + \beta_v ) \right] }{ \exp \mathbb{E}_{q(\boldsymbol{z}^{\backslash d,i})} \left[ \log( \sum_{v'=1}^V n_{k,v'}^{\backslash d,i} + \beta_{v'} ) \right] } \exp \mathbb{E}_{q(\boldsymbol{z}^{\backslash d,i})} \left[ \log( n_{d,k}^{\backslash d,i} + \alpha_k ) \right] \tag{3.120} \\ &\approx \frac{ \exp \left[ \log ( \mathbb{E}[ n_{k,v}^{\backslash d,i} ] + \beta_v ) - \frac{ \mathbb{V}[ n_{k,v}^{\backslash d,i} ] }{ 2 ( \mathbb{E}[ n_{k,v}^{\backslash d,i} ] + \beta_v )^2 } \right] }{ \exp \left[ \log ( \mathbb{E}[ n_{k,\cdot}^{\backslash d,i} ] + \beta_{\cdot} ) - \frac{ \mathbb{V}[ n_{k,\cdot}^{\backslash d,i} ] }{ 2 ( \mathbb{E}[ n_{k,\cdot}^{\backslash d,i} ] + \beta_{\cdot} )^2 } \right] } \exp \left[ \log ( \mathbb{E}[ n_{d,k}^{\backslash d,i} ] + \alpha_k ) - \frac{ \mathbb{V}[ n_{d,k}^{\backslash d,i} ] }{ 2 ( \mathbb{E}[ n_{d,k}^{\backslash d,i} ] + \alpha_k )^2 } \right] \\ &= \frac{ \exp \left[ \log ( \mathbb{E}[ n_{k,v}^{\backslash d,i} ] + \beta_v ) \right] }{ \exp \left[ \log ( \mathbb{E}[ n_{k,\cdot}^{\backslash d,i} ] + \beta_{\cdot} ) \right] } \exp \left[ \log ( \mathbb{E}[ n_{d,k}^{\backslash d,i} ] + \alpha_k ) \right] \\ &\qquad * \exp \left[ - \frac{ \mathbb{V}[ n_{k,v}^{\backslash d,i} ] }{ 2 ( \mathbb{E}[ n_{k,v}^{\backslash d,i} ] + \beta_v )^2 } \right] \exp \left[ - \frac{ \mathbb{V}[ n_{d,k}^{\backslash d,i} ] }{ 2 ( \mathbb{E}[ n_{d,k}^{\backslash d,i} ] + \alpha_k )^2 } \right] \exp \left[ - \frac{ 2 ( \mathbb{E}[ n_{k,\cdot}^{\backslash d,i} ] + \beta_{\cdot} )^2 }{ \mathbb{V}[ n_{k,\cdot}^{\backslash d,i} ] } \right] \\ &= \frac{ \mathbb{E}[ n_{k,v}^{\backslash d,i} ] + \beta_v }{ \mathbb{E}[ n_{k,\cdot}^{\backslash d,i} ] + \beta_{\cdot} } ( \mathbb{E}[ n_{d,k}^{\backslash d,i} ] + \alpha_k ) \\ &\qquad * \exp \left[ - \frac{ \mathbb{V}[ n_{k,v}^{\backslash d,i} ] }{ 2 ( \mathbb{E}[ n_{k,v}^{\backslash d,i} ] + \beta_v )^2 } - \frac{ \mathbb{V}[ n_{d,k}^{\backslash d,i} ] }{ 2 ( \mathbb{E}[ n_{d,k}^{\backslash d,i} ] + \alpha_k )^2 } \right] \exp \left[ \frac{ \mathbb{V}[ n_{k,\cdot}^{\backslash d,i} ] }{ 2 ( \mathbb{E}[ n_{k,\cdot}^{\backslash d,i} ] + \beta_{\cdot} )^2 } \right] \tag{3.130} \end{align} $$

が得られる。

 ここで、$n_{d,k}$は文書dにおいて潜在トピックにkが割り当てられた単語数である。また、文書dの単語iの潜在トピック$z_{d,i}$にkを割り当てる確率が$q(z_{d,i} = k)$である。$\delta(z_{d,i} = k)$は$z_{d,i} = k$のときに1、$z_{d,i} \neq k$のときに0となる確率変数である。潜在トピック$z_{d,i}$がkでない確率は$1 - q(z_{d,i} = k)$である。つまり、$\delta(z_{d,i} = k)$はベルヌーイ分布に従うと言える。
 従って、ベルヌーイ分布の期待値と分散の定義より、$\mathbb{E}[\delta(z_{d,i} = k)] = q(z_{d,i} = k)$、$\mathbb{V}[\delta(z_{d,i} = k)] = q(z_{d,i} = k)(1 - q(z_{d,i} = k))$であることが分かる。

 よって、$n_{d,k}^{\backslash d,i} = \sum_{i'\neq i} \delta(z_{d,i} = k)$より

$$ \begin{align} \mathbb{E} [ n_{d,k}^{\backslash d,i} ] &= \mathbb{E} \left[ \sum_{i'\neq i} \delta(z_{d,i'} = k) \right] \\ &= \sum_{i'\neq i} \mathbb{E} [ \delta(z_{d,i'} = k) ] \\ &= \sum_{i'\neq i} q(z_{d,i'} = k) \tag{3.124} \end{align} $$
$$ \begin{align} \mathbb{V} [ n_{d,k}^{\backslash d,i} ] &= \mathbb{V} \left[ \sum_{i'\neq i} \delta(z_{d,i'} = k) \right] \\ &= \sum_{i'\neq i} \mathbb{V} [ \delta(z_{d,i'} = k) ] \\ &= \sum_{i'\neq i} q(z_{d,i'} = k) \Bigl( 1 - q(z_{d,i'} = k) \Bigl) \tag{3.125} \end{align} $$

である。
 同様に、$n_{k,v}$は文書全体において単語vの潜在トピックにkが割り当てられた単語数である。$\delta(w_{d,i} = v)$は、文書dのi番目の単語$w_{d,i}$が文書全体でv番目の単語であるとき1となり、$w_{d,i} \neq v$のとき0となる。

 よって、$n_{k,v}^{\backslash d,i} = \sum_{d=1}^M \sum_{i'\neq i} \delta(z_{d,i'} = k) \delta(w_{d,i'} = v)$より、それぞれ

$$ \begin{align} \mathbb{E} [ n_{k,v}^{\backslash d,i} ] &= \mathbb{E} \left[ \sum_{d=1}^M \sum_{i'\neq i} \delta(z_{d,i'} = k) \delta(w_{d,i'} = v) \right] \\ &= \sum_{d=1}^M \sum_{i'\neq i} \mathbb{E} \left[ \delta(z_{d,i'} = k) \delta(w_{d,i'} = v) \right] \\ &= \sum_{d=1}^M \sum_{i'\neq i} q(z_{d,i'} = k) \delta(w_{d,i'} = v) \tag{3.126} \end{align} $$
$$ \mathbb{E} [ n_{k,\cdot}^{\backslash d,i} ] = \sum_{v=1}^V \mathbb{E} [ n_{k,v}^{\backslash d,i} ] \tag{3.127} $$
$$ \begin{align} \mathbb{V} [ n_{k,v}^{\backslash d,i} ] &= \mathbb{V} \left[ \sum_{d=1}^M \sum_{i'\neq i} \delta(z_{d,i'} = k) \delta(w_{d,i'} = v) \right] \\ &= \sum_{d=1}^M \sum_{i'\neq i} \mathbb{V} \left[ \delta(z_{d,i'} = k) \delta(w_{d,i'} = v) \right] \\ &= \sum_{d=1}^M \sum_{i'\neq i} q(z_{d,i'} = k) \delta(w_{d,i'} = v) \Bigl( 1 - q(z_{d,i'} = k) \Bigr) \delta(w_{d,i'} = v) \\ &= \sum_{d=1}^M \sum_{i'\neq i} q(z_{d,i'} = k) \Bigl( 1 - q(z_{d,i'} = k) \Bigr) \delta(w_{d,i'} = v)^2 \tag{3.128} \end{align} $$

(こう??。ついでに$\delta(w_{d,i'} = v)^2 = \delta(w_{d,i'} = v)$だよね)

$$ \mathbb{V} [ n_{k,\cdot}^{\backslash d,i} ] = \sum_{v=1}^V \mathbb{V} [ n_{k,v}^{\backslash d,i} ] \tag{3.129} $$

となる。

参考文献

  • 佐藤一誠『トピックモデルによる統計的潜在意味解析』(自然言語処理シリーズ 8)奥村学監修,コロナ社,2015年.

おわりに

3.3節終了。次も1人でできるかな?

【次節の内容】

www.anarchive-beta.com