からっぽのしょこ

読んだら書く!書いたら読む!同じ事は二度調べ(たく)ない

4.4.3:ガウス混合モデルにおける推論:変分推論【緑ベイズ入門のノート】

はじめに

 『ベイズ推論による機械学習入門』の学習時のノートです。基本的な内容は「数式の行間を読んでみた」とそれを「RとPythonで組んでみた」になります。「数式」と「プログラム」から理解するのが目標です。

 この記事は、4.4.3項の内容です。「観測モデルを平均と精度行列が未知の多次元ガウス混合分布(多変量正規混合分布)」、「事前分布をガウス・ウィシャート分布」とする混合モデルを変分推論により推論します。

 省略してある内容等ありますので、本とあわせて読んでください。初学者な自分が理解できるレベルまで落として書き下していますので、分かる人にはかなりくどくなっています。同じような立場の人のお役に立てれば幸いです。

【実装編】

www.anarchive-beta.com

www.anarchive-beta.com

【他の節一覧】

www.anarchive-beta.com

【この節の内容】

4.4.3 変分推論

 変分推論を用いて、ガウス混合モデルの事後分布$p(\mathbf{S}, \boldsymbol{\mu}, \boldsymbol{\Lambda}, \boldsymbol{\pi} | \mathbf{X})$の近似分布$q(\mathbf{S}, \boldsymbol{\mu}, \boldsymbol{\Lambda}, \boldsymbol{\pi})$を導出する。

 観測データ$\mathbf{X}$が与えられた下での、潜在変数$\mathbf{S}$、観測モデルの平均パラメータ$\boldsymbol{\mu}$、精度行列パラメータ$\boldsymbol{\Lambda}$、混合比率パラメータ$\boldsymbol{\pi}$の事後分布$p(\mathbf{S}, \boldsymbol{\mu},\ \boldsymbol{\Lambda}, \boldsymbol{\pi} | \mathbf{X})$を、近似分解の仮定をおいた

$$ p(\mathbf{S}, \boldsymbol{\mu}, \boldsymbol{\Lambda}, \boldsymbol{\pi} | \mathbf{X}) \approx q(\mathbf{S}, \boldsymbol{\mu}, \boldsymbol{\Lambda}, \boldsymbol{\pi}) = q(\mathbf{S}) q(\boldsymbol{\mu} | \boldsymbol{\Lambda}) q(\boldsymbol{\Lambda}) q(\boldsymbol{\pi}) \tag{4.104} $$

で近似する。$q(\mathbf{S}, \boldsymbol{\mu}, \boldsymbol{\Lambda}, \boldsymbol{\pi})$を近似事後分布、または変分事後分布と呼ぶ。

・潜在変数の近似事後分布の導出

 始めに、潜在変数$\mathbf{S}$の近似事後分布$q(\mathbf{S})$を求めていく。

 $\mathbf{S}$の近似事後分布は、事後分布$p(\mathbf{S}, \boldsymbol{\mu}, \boldsymbol{\Lambda}, \boldsymbol{\pi} | \mathbf{X})$と$q(\boldsymbol{\mu}, \boldsymbol{\Lambda}, \boldsymbol{\pi})$を固定した近似分布$q(\mathbf{S}, \boldsymbol{\mu}, \boldsymbol{\Lambda}, \boldsymbol{\pi})$に対して、4.2.2項で求めた変分推論の公式(4.25)を用いて

$$ \begin{align} \ln q(\mathbf{S}) &= \mathbb{E}_{q(\boldsymbol{\mu}, \boldsymbol{\Lambda}, \boldsymbol{\pi})} \Bigl[ \ln p(\mathbf{S}, \boldsymbol{\mu}, \boldsymbol{\Lambda}, \boldsymbol{\pi} | \mathbf{X}) \Bigr] + \mathrm{const.} \\ &= \mathbb{E}_{q(\boldsymbol{\mu}, \boldsymbol{\Lambda}, \boldsymbol{\pi})} \left[ \ln \frac{ p(\mathbf{X}, \mathbf{S}, \boldsymbol{\mu}, \boldsymbol{\Lambda}, \boldsymbol{\pi}) }{ p(\mathbf{X}) } \right] + \mathrm{const.} \\ &= \mathbb{E}_{q(\boldsymbol{\mu}, \boldsymbol{\Lambda}, \boldsymbol{\pi})} \Bigl[ \ln p(\mathbf{X} | \mathbf{S}, \boldsymbol{\mu}, \boldsymbol{\Lambda}) + \ln p(\mathbf{S} | \boldsymbol{\pi}) + \ln p(\boldsymbol{\mu}, \boldsymbol{\Lambda}) + \ln p(\boldsymbol{\pi}) - \ln p(\mathbf{X}) \Bigr] + \mathrm{const.} \\ &= \mathbb{E}_{q(\boldsymbol{\mu}, \boldsymbol{\Lambda}, \boldsymbol{\pi})} \Bigl[ \ln p(\mathbf{X} | \mathbf{S}, \boldsymbol{\mu}, \boldsymbol{\Lambda}) \Bigr] + \mathbb{E}_{q(\boldsymbol{\mu}, \boldsymbol{\Lambda}, \boldsymbol{\pi})} \Bigl[ \ln p(\mathbf{S} | \boldsymbol{\pi}) \Bigr] \\ &\qquad + \mathbb{E}_{q(\boldsymbol{\mu}, \boldsymbol{\Lambda}, \boldsymbol{\pi})} \Bigl[ \ln p(\boldsymbol{\mu}, \boldsymbol{\Lambda}) \Bigr] + \mathbb{E}_{q(\boldsymbol{\mu}, \boldsymbol{\Lambda}, \boldsymbol{\pi})} \Bigl[ \ln p(\boldsymbol{\pi}) \Bigr] - \mathbb{E}_{q(\boldsymbol{\mu}, \boldsymbol{\Lambda}, \boldsymbol{\pi})} \Bigl[ \ln p(\mathbf{X}) \Bigr] + \mathrm{const.} \\ &= \mathbb{E}_{q(\boldsymbol{\mu}, \boldsymbol{\Lambda})} \left[ \sum_{n=1}^N \ln p(\mathbf{x}_n | \mathbf{s}_n, \boldsymbol{\mu}, \boldsymbol{\Lambda}) \right] + \mathbb{E}_{q(\boldsymbol{\pi})} \left[ \sum_{n=1}^N \ln p(\mathbf{s}_n | \boldsymbol{\pi}) \right] + \mathrm{const.} \\ &= \sum_{n=1}^N \Bigl\{ \mathbb{E}_{q(\boldsymbol{\mu}, \boldsymbol{\Lambda})} \Bigl[ \ln p(\mathbf{x}_n | \mathbf{s}_n, \boldsymbol{\mu}, \boldsymbol{\Lambda}) \Bigr] + \mathbb{E}_{q(\boldsymbol{\pi})} \Bigl[ \ln p(\mathbf{s}_n | \boldsymbol{\pi}) \Bigr] \Bigr\} + \mathrm{const.} \tag{4.105}\\ &= \sum_{n=1}^N \left\{ \mathbb{E}_{q(\boldsymbol{\mu}, \boldsymbol{\Lambda})} \left[ \sum_{k=1}^K \ln \mathcal{N}(\mathbf{x}_n | \boldsymbol{\mu}_k, \boldsymbol{\Lambda}_k^{-1})^{s_{n,k}} \right] + \mathbb{E}_{q(\boldsymbol{\pi})} \Bigl[ \ln \mathrm{Cat}(\mathbf{s}_n | \boldsymbol{\pi}) \Bigr] \right\} + \mathrm{const.} \end{align} $$

で求められる。4.4.1項「ガウス混合モデル」で確認した各変数の生成過程(依存関係)に従い項を分解している。また、適宜$\mathbf{S}$に影響しない項を$\mathrm{const.}$にまとめて比例関係に注目する。省略した部分については、最後に正規化することで対応できる。
 連続値の期待値の定義$\mathbb{E}_{q(\boldsymbol{\mu})}[\boldsymbol{\mu}] = \int q(\boldsymbol{\mu}) \boldsymbol{\mu} d\boldsymbol{\mu}$より、$\boldsymbol{\mu}$に影響しない項は$\mathbb{E}_{q(\boldsymbol{\mu})}[\cdot]$の外に出せる。また、連続値の確率分布の定義より$\int q(\boldsymbol{\mu}) d\boldsymbol{\mu} = 1$なので、期待値の括弧内($\int$の中)の項がなくなると1となり消える。$\boldsymbol{\Lambda},\ \boldsymbol{\pi}$についても同様である。

 $n$番目の潜在変数(ある1つのデータのクラスタ)$\mathbf{s}_n$の近似事後分布の具体的な形状を明らかにしていく。前の項は

$$ \begin{align} \mathbb{E}_{q(\boldsymbol{\mu}, \boldsymbol{\Lambda})} \Bigl[ \ln p(\mathbf{x}_n | \mathbf{s}_n, \boldsymbol{\mu}, \boldsymbol{\Lambda}) \Bigr] &= \mathbb{E}_{q(\boldsymbol{\mu}, \boldsymbol{\Lambda})} \left[ \sum_{k=1}^K s_{n,k} \ln \mathcal{N}(\mathbf{x}_n | \boldsymbol{\mu}_k, \boldsymbol{\Lambda}_k^{-1}) \right] \\ &= \sum_{k=1}^K s_{n,k} \mathbb{E}_{q(\boldsymbol{\mu}_k, \boldsymbol{\Lambda}_k)} \left[ - \frac{1}{2} (\mathbf{x}_n - \boldsymbol{\mu}_k)^{\top} \boldsymbol{\Lambda}_k (\mathbf{x}_n - \boldsymbol{\mu}_k) - \frac{1}{2} \ln |\boldsymbol{\Lambda}_k^{-1}| - \frac{D}{2} \ln 2 \pi \right] \\ &= \sum_{k=1}^K s_{n,k} \mathbb{E}_{q(\boldsymbol{\mu}_k, \boldsymbol{\Lambda}_k)} \left[ - \frac{1}{2} \mathbf{x}_n^{\top} \boldsymbol{\Lambda}_k \mathbf{x}_n - \mathbf{x}_n^{\top} \boldsymbol{\Lambda}_k \boldsymbol{\mu}_k + \frac{1}{2} \boldsymbol{\mu}_k^{\top} \boldsymbol{\Lambda}_k \boldsymbol{\mu}_k + \frac{1}{2} \ln |\boldsymbol{\Lambda}_k| \right] + \mathrm{const.} \\ &= \sum_{k=1}^K s_{n,k} \left\{ - \frac{1}{2} \mathbf{x}_n^{\top} \mathbb{E}_{q(\boldsymbol{\Lambda}_k)} [ \boldsymbol{\Lambda}_k ] \mathbf{x}_n - \mathbf{x}_n^{\top} \mathbb{E}_{q(\boldsymbol{\mu}_k, \boldsymbol{\Lambda}_k)} [ \boldsymbol{\Lambda}_k \boldsymbol{\mu}_k ] + \frac{1}{2} \mathbb{E}_{q(\boldsymbol{\mu}_k, \boldsymbol{\Lambda}_k)} [ \boldsymbol{\mu}_k^{\top} \boldsymbol{\Lambda}_k \boldsymbol{\mu}_k ] \right. \\ &\qquad \left. + \frac{1}{2} \mathbb{E}_{q(\boldsymbol{\Lambda}_k)} [ \ln |\boldsymbol{\Lambda}_k| ] \right\} + \mathrm{const.} \tag{4.106} \end{align} $$

となる。ここで、2行目の最後の項の$\pi$は混合比率ではなく円周率である。$\sum_{k=1}^K s_{n,k} = 1$なので、$\sum_{k=1}^K - s_{n,k} \frac{D}{2} \ln 2 \pi = - \frac{D}{2} \ln 2 \pi$となり$\mathbf{s}_n$の影響を受けなくなるので$\mathrm{const.}$に含める。また、行列式の性質$|\mathbf{A}^{-1}| = |\mathbf{A}|^{-1}$、自然対数の性質$\ln x^{-1} = - \ln x$より、$\ln |\boldsymbol{\Lambda}_k^{-1}| = - \ln |\boldsymbol{\Lambda}_k|$である。

 後の項は

$$ \begin{align} \mathbb{E}_{q(\boldsymbol{\pi})} \Bigl[ \ln p(\mathbf{s}_n | \boldsymbol{\pi}) \Bigr] &= \mathbb{E}_{q(\boldsymbol{\pi})} \Bigl[ \ln \mathrm{Cat}(\mathbf{s}_n | \boldsymbol{\pi}) \Bigr] \\ &= \mathbb{E}_{q(\boldsymbol{\pi})} \left[ \ln \prod_{k=1}^K \pi_k^{s_{n,k}} \right] \\ &= \mathbb{E}_{q(\boldsymbol{\pi})} \left[ \sum_{k=1}^K s_{n,k} \ln \pi_k \right] \\ &= \sum_{k=1}^K s_{n,k} \mathbb{E}_{q(\boldsymbol{\pi})} [ \ln \pi_k ] \tag{4.107} \end{align} $$

となる。

 よって、式(4.106)と式(4.107)を$n$番目のデータに関係する項を取り出した式(4.105)に代入すると

$$ \begin{align} \ln q(\mathbf{s}_n) &= \mathbb{E}_{q(\boldsymbol{\mu}, \boldsymbol{\Lambda})} \Bigl[ \ln p(\mathbf{x}_n | \mathbf{s}_n, \boldsymbol{\mu}, \boldsymbol{\Lambda}) \Bigr] + \mathbb{E}_{q(\boldsymbol{\pi})} \Bigl[ \ln p(\mathbf{s}_n | \boldsymbol{\pi}) \Bigr] + \mathrm{const.} \tag{4.105'}\\ &= \sum_{k=1}^K s_{n,k} \left\{ - \frac{1}{2} \mathbf{x}_n^{\top} \mathbb{E}_{q(\boldsymbol{\Lambda}_k)} [ \boldsymbol{\Lambda}_k ] \mathbf{x}_n - \mathbf{x}_n^{\top} \mathbb{E}_{q(\boldsymbol{\mu}_k, \boldsymbol{\Lambda}_k)} [ \boldsymbol{\Lambda}_k \boldsymbol{\mu}_k ] + \frac{1}{2} \mathbb{E}_{q(\boldsymbol{\mu}_k, \boldsymbol{\Lambda}_k)} [ \boldsymbol{\mu}_k^{\top} \boldsymbol{\Lambda}_k \boldsymbol{\mu}_k ] + \frac{1}{2} \mathbb{E}_{q(\boldsymbol{\Lambda}_k)} [ \ln |\boldsymbol{\Lambda}_k| ] \right\} \\ &\qquad + \sum_{k=1}^K s_{n,k} \mathbb{E}_{q(\boldsymbol{\pi})} [ \ln \pi_k ] + \mathrm{const.} \\ &= \sum_{k=1}^K s_{n,k} \left\{ - \frac{1}{2} \mathbf{x}_n^{\top} \mathbb{E}_{q(\boldsymbol{\Lambda}_k)} [ \boldsymbol{\Lambda}_k ] \mathbf{x}_n - \mathbf{x}_n^{\top} \mathbb{E}_{q(\boldsymbol{\mu}_k, \boldsymbol{\Lambda}_k)} [ \boldsymbol{\Lambda}_k \boldsymbol{\mu}_k ] + \frac{1}{2} \mathbb{E}_{q(\boldsymbol{\mu}_k, \boldsymbol{\Lambda}_k)} [ \boldsymbol{\mu}_k^{\top} \boldsymbol{\Lambda}_k \boldsymbol{\mu}_k ] + \frac{1}{2} \mathbb{E}_{q(\boldsymbol{\Lambda}_k)} [ \ln |\boldsymbol{\Lambda}_k| ] + \mathbb{E}_{q(\boldsymbol{\pi})} [ \ln \pi_k ] \right\} + \mathrm{const.} \end{align} $$

となる。適宜$\mathbf{s}_n$に影響しない項を$\mathrm{const.}$にまとめている。

 この式について

$$ \begin{align} \eta_{n,k} &\propto \exp \Biggl\{ - \frac{1}{2} \mathbf{x}_n^{\top} \mathbb{E}_{q(\boldsymbol{\Lambda}_k)} [ \boldsymbol{\Lambda}_k ] \mathbf{x}_n - \mathbf{x}_n^{\top} \mathbb{E}_{q(\boldsymbol{\mu}_k, \boldsymbol{\Lambda}_k)} [ \boldsymbol{\Lambda}_k \boldsymbol{\mu}_k ] + \frac{1}{2} \mathbb{E}_{q(\boldsymbol{\mu}_k, \boldsymbol{\Lambda}_k)} [ \boldsymbol{\mu}_k^{\top} \boldsymbol{\Lambda}_k \boldsymbol{\mu}_k ] \Biggr.\\ &\qquad \Biggl. + \frac{1}{2} \mathbb{E}_{q(\boldsymbol{\Lambda}_k)} [ \ln |\boldsymbol{\Lambda}_k| ] + \mathbb{E}_{q(\boldsymbol{\pi})} [ \ln \pi_k ] \Biggr\} \tag{4.109} \end{align} $$

とおき

$$ \ln q(\mathbf{s}_n) = \sum_{k=1}^K s_{n,k} \ln \eta_{n,k} + \mathrm{const.} $$

さらに$\ln$を外し、$\sum_{k=1}^K \eta_{n,k} = 1$となるように正規化する($\mathrm{const.}$を正規化項に置き換える)と

$$ q(\mathbf{s}_n) = \prod_{k=1}^K \eta_{n,k}^{s_{n,k}} = \mathrm{Cat}(\mathbf{s}_n | \boldsymbol{\eta}_n) \tag{4.108} $$

$\mathbf{s}_n$の近似事後分布は、パラメータ$\boldsymbol{\eta}_n = (\eta_{n,1}, \eta_{n,2}, \cdots, \eta_{n,K})$を持つカテゴリ分布になることが分かる。

 $\eta_{n,k}$の計算式(更新式)(4.109)については、$q(\boldsymbol{\mu}_k | \boldsymbol{\Lambda}_k),\ q(\boldsymbol{\Lambda}_k),\ q(\boldsymbol{\pi})$の形状を明らかにしてから確認する。

・パラメータの近似事後分布の導出

 次に、パラメータ$\boldsymbol{\mu},\ \boldsymbol{\Lambda},\ \boldsymbol{\pi}$の(同時)近似事後分布$q(\boldsymbol{\mu} | \boldsymbol{\Lambda})$から、各パラメータの近似事後分布$q(\boldsymbol{\mu}, \boldsymbol{\Lambda}, \boldsymbol{\pi}),\ q(\boldsymbol{\Lambda}),\ q(\boldsymbol{\pi})$を求めていく。

 $\boldsymbol{\mu},\ \boldsymbol{\Lambda},\ \boldsymbol{\pi}$の近似事後分布は、事後分布$p(\mathbf{S}, \boldsymbol{\mu}, \boldsymbol{\Lambda}, \boldsymbol{\pi} | \mathbf{X})$と$q(\mathbf{S})$を固定した近似分布$q(\mathbf{S}, \boldsymbol{\mu}, \boldsymbol{\Lambda}, \boldsymbol{\pi})$に対して、変分推論の公式(4.25)を用いて

$$ \begin{align} \ln q(\boldsymbol{\mu}, \boldsymbol{\Lambda}, \boldsymbol{\pi}) &= \mathbb{E}_{q(\mathbf{S})} \Bigl[ \ln p(\mathbf{S}, \boldsymbol{\mu}, \boldsymbol{\Lambda}, \boldsymbol{\pi} | \mathbf{X}) \Bigr] + \mathrm{const.} \\ &= \mathbb{E}_{q(\mathbf{S})} \left[ \ln \frac{ p(\mathbf{X}, \mathbf{S}, \boldsymbol{\mu}, \boldsymbol{\Lambda}, \boldsymbol{\pi}) }{ p(\mathbf{X}) } \right] + \mathrm{const.} \\ &= \mathbb{E}_{q(\mathbf{S})} \Bigl[ \ln p(\mathbf{X} | \mathbf{S}, \boldsymbol{\mu}, \boldsymbol{\Lambda}) + \ln p(\boldsymbol{\mu} | \boldsymbol{\Lambda}) + \ln p(\boldsymbol{\Lambda}) + \ln p(\mathbf{S} | \boldsymbol{\pi}) + \ln p(\boldsymbol{\pi}) - \ln p(\mathbf{X}) \Bigr] + \mathrm{const.} \\ &= \mathbb{E}_{q(\mathbf{S})} \Bigl[ \ln p(\mathbf{X} | \mathbf{S}, \boldsymbol{\mu}, \boldsymbol{\Lambda}) \Bigr] + \mathbb{E}_{q(\mathbf{S})} \Bigl[ \ln p(\boldsymbol{\mu} | \boldsymbol{\Lambda}) \Bigr] + \mathbb{E}_{q(\mathbf{S})} \Bigl[ \ln p(\boldsymbol{\Lambda}) \Bigr] \\ &\qquad + \mathbb{E}_{q(\mathbf{S})} \Bigl[ \ln p(\mathbf{S} | \boldsymbol{\pi}) \Bigr] + \mathbb{E}_{q(\mathbf{S})} \Bigl[ \ln p(\boldsymbol{\pi}) \Bigr] - \mathbb{E}_{q(\mathbf{S})} \Bigl[ \ln p(\mathbf{X}) \Bigr] + \mathrm{const.} \\ &= \mathbb{E}_{q(\mathbf{S})} \Bigl[ \ln p(\mathbf{X} | \mathbf{S}, \boldsymbol{\mu}, \boldsymbol{\Lambda}) \Bigr] + \ln p(\boldsymbol{\mu} | \boldsymbol{\Lambda}) + \ln p(\boldsymbol{\Lambda}) + \mathbb{E}_{q(\mathbf{S})} \Bigl[ \ln p(\mathbf{S} | \boldsymbol{\pi}) \Bigr] + \ln p(\boldsymbol{\pi}) + \mathrm{const.} \tag{4.110}\\ &= \mathbb{E}_{q(\mathbf{S})} \left[ \sum_{n=1}^N \ln p(\mathbf{x}_n | \mathbf{S}, \boldsymbol{\mu}, \boldsymbol{\Lambda}) \right] + \sum_{k=1}^K \ln p(\boldsymbol{\mu}_k | \boldsymbol{\Lambda}_k) + \sum_{k=1}^K \ln p(\boldsymbol{\Lambda}_k) \\ &\qquad + \mathbb{E}_{q(\mathbf{S})} \left[ \sum_{n=1}^N \ln p(\mathbf{s}_n | \boldsymbol{\pi}) \right] + \ln p(\boldsymbol{\pi}) + \mathrm{const.} \\ &= \sum_{n=1}^N \mathbb{E}_{q(\mathbf{s}_n)} \left[ \sum_{k=1}^K \ln \mathcal{N}(\mathbf{x}_n | \boldsymbol{\mu}_k, \boldsymbol{\Lambda}_k^{-1})^{s_{n,k}} \right] + \sum_{k=1}^K \ln \mathcal{N}(\boldsymbol{\mu}_k | \mathbf{m}, (\beta \boldsymbol{\Lambda}_k)^{-1}) + \sum_{k=1}^K \ln \mathcal{W}(\boldsymbol{\Lambda}_k | \nu, \mathbf{W}) \\ &\qquad + \sum_{n=1}^N \mathbb{E}_{q(\mathbf{s}_n)} \Bigl[ \ln \mathrm{Cat}(\mathbf{s}_n | \boldsymbol{\pi}) \Bigr] + \ln \mathrm{Dir}(\boldsymbol{\pi} | \boldsymbol{\alpha}) + \mathrm{const.} \end{align} $$

で求められる。こちらも生成過程に従い項を分解して、$\boldsymbol{\mu},\ \boldsymbol{\Lambda},\ \boldsymbol{\pi}$に影響しない項を省く。$\mathbf{S}$と無関係な項は$\mathbb{E}_{q(\mathbf{S})} [\cdot]$の外に出せる。

 また、左辺の(対数をとった同時)近似事後分布は

$$ \ln q(\boldsymbol{\mu}, \boldsymbol{\Lambda}, \boldsymbol{\pi}) = \ln q(\boldsymbol{\mu} | \boldsymbol{\Lambda}) + \ln q(\boldsymbol{\Lambda}) + \ln q(\boldsymbol{\pi}) $$

と分解できる。

 この式を用いて、$\boldsymbol{\mu},\ \boldsymbol{\Lambda},\ \boldsymbol{\pi}$それぞれの近似事後分布の具体的な形状を明らかにしていく。


・平均パラメータの近似事後分布

 式(4.110)を$\boldsymbol{\mu},\ \boldsymbol{\Lambda}$に関して整理する($\boldsymbol{\mu},\ \boldsymbol{\Lambda}$に影響しない項を$\mathrm{const.}$にまとめる)と

$$ \begin{align} \ln q(\boldsymbol{\mu} | \boldsymbol{\Lambda}) + \ln q(\boldsymbol{\Lambda}) &= \mathbb{E}_{q(\mathbf{S})} \Bigl[ \ln p(\mathbf{X} | \mathbf{S}, \boldsymbol{\mu}, \boldsymbol{\Lambda}) \Bigr] + \ln p(\boldsymbol{\mu} | \boldsymbol{\Lambda}) + \ln p(\boldsymbol{\Lambda}) - \ln q(\boldsymbol{\pi}) + \mathrm{const.} \\ &= \sum_{n=1}^N \mathbb{E}_{q(\mathbf{s}_n)} \left[ \sum_{k=1}^K s_{n,k} \ln \mathcal{N}(\mathbf{x}_n | \boldsymbol{\mu}_k, \boldsymbol{\Lambda}_k^{-1}) \right] \\ &\qquad + \sum_{k=1}^K \ln \mathcal{N}(\boldsymbol{\mu}_k | \mathbf{m}, (\beta \boldsymbol{\Lambda}_k)^{-1}) + \sum_{k=1}^K \ln \mathcal{W}(\boldsymbol{\Lambda}_k | \nu, \mathbf{W}) + \mathrm{const.} \\ &= \sum_{k=1}^K \Biggl\{ \sum_{n=1}^N \mathbb{E}_{q(\mathbf{s}_n)} [ s_{n,k} ] \ln \mathcal{N}(\mathbf{x}_n | \boldsymbol{\mu}_k, \boldsymbol{\Lambda}_k^{-1}) \Biggr. \\ &\qquad \Biggl. + \ln \mathcal{N}(\boldsymbol{\mu}_k | \mathbf{m}, (\beta \boldsymbol{\Lambda}_k)^{-1}) + \ln \mathcal{W}(\boldsymbol{\Lambda}_k | \nu, \mathbf{W}) \Biggr\} + \mathrm{const.} \tag{4.111} \end{align} $$

となる。$\ln q(\boldsymbol{\pi})$は左辺から移項したものである。

 $\boldsymbol{\mu},\ \boldsymbol{\Lambda}$の(同時)近似事後分布(4.111)から$k$に関係する項を取り出して、$\boldsymbol{\mu}_k$に関して整理する($\boldsymbol{\mu}_k$に影響しない項を$\mathrm{const.}$にまとめる)と

$$ \begin{align} \ln q(\boldsymbol{\mu}_k | \boldsymbol{\Lambda}_k) &= \sum_{n=1}^N \mathbb{E}_{q(\mathbf{s}_n)} [ s_{n,k} ] \ln \mathcal{N}(\mathbf{x}_n | \boldsymbol{\mu}_k, \boldsymbol{\Lambda}_k^{-1}) + \ln \mathcal{N}(\boldsymbol{\mu}_k | \mathbf{m}, (\beta \boldsymbol{\Lambda}_k)^{-1}) - \ln q(\boldsymbol{\Lambda}_k) + \mathrm{const.} \\ &= - \sum_{n=1}^N \mathbb{E}_{q(\mathbf{s}_n)} [ s_{n,k} ] \frac{1}{2} \Bigl\{ (\mathbf{x}_n - \boldsymbol{\mu}_k)^{\top} \boldsymbol{\Lambda}_k (\mathbf{x}_n - \boldsymbol{\mu}_k) + \ln |\boldsymbol{\Lambda}_k^{-1}| + D \ln 2 \pi \Bigr\} \\ &\qquad - \frac{1}{2} \Bigl\{ (\boldsymbol{\mu}_k - \mathbf{m})^{\top} \beta \boldsymbol{\Lambda}_k (\boldsymbol{\mu}_k - \mathbf{m}) + \ln |(\beta \boldsymbol{\Lambda}_k)^{-1}| + D \ln 2 \pi \Bigr\} + \mathrm{const.} \\ &= - \sum_{n=1}^N \mathbb{E}_{q(\mathbf{s}_n)} [ s_{n,k} ] \frac{1}{2} \Bigl\{ \mathbf{x}_n^{\top} \boldsymbol{\Lambda}_k \mathbf{x}_n - 2 \boldsymbol{\mu}_k^{\top} \boldsymbol{\Lambda}_k \mathbf{x}_n + \boldsymbol{\mu}_k^{\top} \boldsymbol{\Lambda}_k \boldsymbol{\mu}_k \Bigr\} \\ &\qquad - \frac{1}{2} \Bigl\{ \boldsymbol{\mu}_k^{\top} \beta \boldsymbol{\Lambda}_k \boldsymbol{\mu}_k - 2 \boldsymbol{\mu}_k^{\top} \beta \boldsymbol{\Lambda}_k \mathbf{m} + \mathbf{m}^{\top} \beta \boldsymbol{\Lambda}_k \mathbf{m} \Bigr\} + \mathrm{const.} \\ &= - \frac{1}{2} \Biggl\{ - 2 \boldsymbol{\mu}_k^{\top} \boldsymbol{\Lambda}_k \sum_{n=1}^N \mathbb{E}_{q(\mathbf{s}_n)} [s_{n,k}] \mathbf{x}_n + \boldsymbol{\mu}_k^{\top} \sum_{n=1}^N \mathbb{E}_{q(\mathbf{s}_n)} [s_{n,k}] \boldsymbol{\Lambda}_k \boldsymbol{\mu}_k + \boldsymbol{\mu}_k^{\top} \beta \boldsymbol{\Lambda}_k \boldsymbol{\mu}_k - 2 \boldsymbol{\mu}_k^{\top} \beta \boldsymbol{\Lambda}_k \mathbf{m} \Biggr\} + \mathrm{const.} \\ &= - \frac{1}{2} \left\{ \boldsymbol{\mu}_k^{\top} \left( \sum_{n=1}^N \mathbb{E}_{q(\mathbf{s}_n)} [s_{n,k}] + \beta \right) \boldsymbol{\Lambda}_k \boldsymbol{\mu}_k - 2 \boldsymbol{\mu}_k^{\top} \boldsymbol{\Lambda}_k \left( \sum_{n=1}^N \mathbb{E}_{q(\mathbf{s}_n)} [s_{n,k}] \mathbf{x}_n + \beta \mathbf{m} \right) \right\} + \mathrm{const.} \tag{4.112} \end{align} $$

となる。$\ln q(\boldsymbol{\Lambda}_k)$は左辺から移項したものである。また、$\sum_{n=1}^N \mathbb{E}_{q(\mathbf{s}_n)} [s_{n,k}]$はスカラである。

 式(4.112)は式の形から多次元ガウス分布になることが分かる。そこで、$\boldsymbol{\mu}_k$の近似事後分布を平均$\hat{\mathbf{m}}_k$、精度$\hat{\beta}_k \boldsymbol{\Lambda}_k$の$D$次元ガウス分布

$$ q(\boldsymbol{\mu}_k | \boldsymbol{\Lambda}_k) = \mathcal{N}(\boldsymbol{\mu}_k | \hat{\mathbf{m}}_k, (\hat{\beta}_k \boldsymbol{\Lambda}_k)^{-1}) \tag{4.113} $$

とおく。この式の対数をとり、$\boldsymbol{\mu}_k$に関して整理すると

$$ \begin{aligned} \ln q(\boldsymbol{\mu}_k | \boldsymbol{\Lambda}_k) &= - \frac{1}{2} \Bigl\{ (\boldsymbol{\mu}_k - \hat{\mathbf{m}}_k)^{\top} \hat{\beta}_k \boldsymbol{\Lambda}_k (\boldsymbol{\mu}_k - \hat{\mathbf{m}}_k) + \ln |(\hat{\beta}_k \boldsymbol{\Lambda}_k)^{-1}| + D \ln 2 \pi \Bigr\} \\ &= - \frac{1}{2} \Bigl\{ \boldsymbol{\mu}_k^{\top} \hat{\beta}_k \boldsymbol{\Lambda}_k \boldsymbol{\mu}_k - 2 \boldsymbol{\mu}_k^{\top} \hat{\beta}_k \boldsymbol{\Lambda}_k \hat{\mathbf{m}}_k \Bigr\} + \mathrm{const.} \end{aligned} $$

となる。

 したがって、式(4.112)との対応関係から、精度行列パラメータの係数は

$$ \hat{\beta}_k = \sum_{n=1}^N \mathbb{E}_{q(\mathbf{s}_n)} [s_{n,k}] + \beta \tag{4.114.a} $$

となり、また

$$ \hat{\beta}_k \hat{\mathbf{m}}_k = \sum_{n=1}^N \mathbb{E}_{q(\mathbf{s}_n)} [s_{n,k}] \mathbf{x}_n + \beta \mathbf{m} $$

なので、両辺を$\hat{\beta}_k$で割ると、平均パラメータは

$$ \hat{\mathbf{m}}_k = \frac{ \sum_{n=1}^N \mathbb{E}_{q(\mathbf{s}_n)} [s_{n,k}] \mathbf{x}_n + \beta \mathbf{m} }{ \hat{\beta}_k } \tag{4.114.b} $$

と求められる。

・精度パラメータの近似事後分布

 同様に、式(4.111)から$k$に関係する項を取り出して、$\boldsymbol{\Lambda}_k$に関して整理すると

$$ \begin{aligned} \ln q(\boldsymbol{\Lambda}_k) &= \mathbb{E}_{q(\mathbf{S})} \left[ \sum_{n=1}^N \ln \mathcal{N}(\mathbf{x}_n | \boldsymbol{\mu}_k, \boldsymbol{\Lambda}_k^{-1})^{s_{n,k}} \right] + \ln q(\boldsymbol{\mu}_k | \boldsymbol{\Lambda}_k) + \ln q(\boldsymbol{\Lambda}_k) - \ln q(\boldsymbol{\mu}_k | \boldsymbol{\Lambda}_k) + \mathrm{const.} \\ &= \sum_{n=1}^N \mathbb{E}_{q(\mathbf{s}_n)} [s_{n,k}] \ln \mathcal{N}(\mathbf{x}_n | \boldsymbol{\mu}_k, \boldsymbol{\Lambda}_k^{-1}) + \ln \mathcal{N}(\boldsymbol{\mu}_k | \mathbf{m}, (\beta \boldsymbol{\Lambda}_k)^{-1}) + \ln \mathcal{W}(\boldsymbol{\Lambda}_k | \nu, \mathbf{W}) - \mathcal{N}(\boldsymbol{\mu}_k | \hat{\mathbf{m}}_k, (\hat{\beta}_k \boldsymbol{\Lambda}_k)^{-1}) + \mathrm{const.} \\ &= \sum_{n=1}^N - \frac{1}{2} \mathbb{E}_{q(\mathbf{s}_n)} [s_{n,k}] \left\{ (\mathbf{x}_n - \boldsymbol{\mu}_k)^{\top} \boldsymbol{\Lambda}_k (\mathbf{x}_n - \boldsymbol{\mu}_k) + \ln |\boldsymbol{\Lambda}_k^{-1}| + D \ln 2 \pi \right\} \\ &\qquad - \frac{1}{2} \Bigl\{ (\boldsymbol{\mu}_k - \mathbf{m})^{\top} \beta \boldsymbol{\Lambda}_k (\boldsymbol{\mu}_k - \mathbf{m}) + \ln |\beta \boldsymbol{\Lambda}_k^{-1}| + D \ln 2 \pi \Bigr\} \\ &\qquad + \frac{\nu - D - 1}{2} \ln |\boldsymbol{\Lambda}_k| - \frac{1}{2} \mathrm{Tr}(\mathbf{W}^{-1} \boldsymbol{\Lambda}_k) + \ln C_{\mathcal{W}}(\nu, \mathbf{W}) \\ &\qquad + \frac{1}{2} \Bigl\{ (\boldsymbol{\mu}_k - \hat{\mathbf{m}}_k)^{\top} \hat{\beta}_k \boldsymbol{\Lambda}_k (\boldsymbol{\mu}_k - \hat{\mathbf{m}}_k) + \ln |\hat{\beta}_k \boldsymbol{\Lambda}_k^{-1}| + D \ln 2 \pi \Bigr\} + \mathrm{const.} \end{aligned} $$

となる。$\ln q(\boldsymbol{\mu}_k | \boldsymbol{\Lambda}_k)$は左辺から移項したものである。さらに、括弧を展開すると

$$ \begin{align} \ln q(\boldsymbol{\Lambda}_k) &= \sum_{n=1}^N - \frac{1}{2} \mathbb{E}_{q(\mathbf{s}_n)} [s_{n,k}] \Bigl\{ \mathbf{x}_n^{\top} \boldsymbol{\Lambda}_k \mathbf{x}_n - 2 \boldsymbol{\mu}_k^{\top} \boldsymbol{\Lambda}_k \mathbf{x}_n + \boldsymbol{\mu}_k^{\top} \boldsymbol{\Lambda}_k \boldsymbol{\mu}_k - \ln |\boldsymbol{\Lambda}_k| \Bigr\} \\ &\qquad - \frac{1}{2} \Bigl\{ \boldsymbol{\mu}_k^{\top} \beta \boldsymbol{\Lambda}_k \boldsymbol{\mu}_k - 2 \boldsymbol{\mu}_k^{\top} \beta \boldsymbol{\Lambda}_k \mathbf{m} + \mathbf{m}^{\top} \beta \boldsymbol{\Lambda}_k \mathbf{m} - D \ln \beta - \ln |\boldsymbol{\Lambda}_k| \Bigr\} \\ &\qquad + \frac{\nu - D - 1}{2} \ln |\boldsymbol{\Lambda}_k| - \frac{1}{2} \mathrm{Tr}(\mathbf{W}^{-1} \boldsymbol{\Lambda}_k) \\ &\qquad + \frac{1}{2} \Biggl\{ \boldsymbol{\mu}_k^{\top} \left( \sum_{n=1}^N \mathbb{E}_{q(\mathbf{s}_n)} [s_{n,k}] + \beta \right) \boldsymbol{\Lambda}_k \boldsymbol{\mu}_k - 2 \boldsymbol{\mu}_k \boldsymbol{\Lambda}_k \left( \sum_{n=1}^N \mathbb{E}_{q(\mathbf{s}_n)} [s_{n,k}] \mathbf{x}_n + \beta \mathbf{m} \right) + \hat{\mathbf{m}}_k^{\top} \hat{\beta}_k \boldsymbol{\Lambda}_k \hat{\mathbf{m}}_k \Biggr. \\ &\qquad \Biggl. - D \ln \hat{\beta}_k - \ln |\boldsymbol{\Lambda}_k| \Biggr\} + \mathrm{const.} \\ &= - \frac{1}{2} \left\{ \sum_{n=1}^N \mathbb{E}_{q(\mathbf{s}_n)} [s_{n,k}] \mathbf{x}_n^{\top} \boldsymbol{\Lambda}_k \mathbf{x}_n + \mathbf{m}^{\top} \beta \boldsymbol{\Lambda}_k \mathbf{m} - \hat{\mathbf{m}}_k^{\top} \hat{\beta}_k \boldsymbol{\Lambda}_k \hat{\mathbf{m}}_k \right\} + \frac{\sum_{n=1}^N \mathbb{E}_{q(\mathbf{s}_n)} [s_{n,k}]}{2} \ln |\boldsymbol{\Lambda}_k| \\ &\qquad + \frac{\nu - D - 1}{2} \ln |\boldsymbol{\Lambda}_k| - \frac{1}{2} \mathrm{Tr}(\mathbf{W}^{-1} \boldsymbol{\Lambda}_k) + \mathrm{const.} \\ &= - \frac{1}{2} \left\{ \mathrm{Tr} \left( \sum_{n=1}^N \mathbb{E}_{q(\mathbf{s}_n)} [s_{n,k}] \mathbf{x}_n \mathbf{x}_n^{\top} \boldsymbol{\Lambda}_k \right) + \mathrm{Tr}( \beta \mathbf{m} \mathbf{m}^{\top} \boldsymbol{\Lambda}_k ) - \mathrm{Tr}( \hat{\beta}_k \hat{\mathbf{m}}_k \hat{\mathbf{m}}_k^{\top} \boldsymbol{\Lambda}_k ) \right\} \\ &\qquad + \frac{ \sum_{n=1}^N \mathbb{E}_{q(\mathbf{s}_n)} [s_{n,k}] + \nu - D - 1 }{ 2 } \ln |\boldsymbol{\Lambda}_k| - \frac{1}{2} \mathrm{Tr}(\mathbf{W}^{-1} \boldsymbol{\Lambda}_k) + \mathrm{const.} \\ &= \frac{ \sum_{n=1}^N \mathbb{E}_{q(\mathbf{s}_n)} [s_{n,k}] + \nu - D - 1 }{ 2 } \ln |\boldsymbol{\Lambda}_k| \\ &\qquad - \frac{1}{2} \mathrm{Tr} \left\{ \left( \sum_{n=1}^N \mathbb{E}_{q(\mathbf{s}_n)} [s_{n,k}] \mathbf{x}_n \mathbf{x}_n^{\top} + \beta \mathbf{m} \mathbf{m}^{\top} - \hat{\beta}_k \hat{\mathbf{m}}_k \hat{\mathbf{m}}^{\top} + \mathbf{W}^{-1} \right) \boldsymbol{\Lambda}_k \right\} + \mathrm{const.} \tag{4.116} \end{align} $$

【途中式の途中式】

  1. 行列式の性質$|\mathbf{A}^{-1}| = |\mathbf{A}|^{-1}$、$|c \mathbf{A}| = c^D |\mathbf{A}|$より、変形する。また、式(4.114)を一部の項に代入する。
  2. 式を整理する。
  3. 「3.4.3:多次元ガウス分布の学習と予測:平均・精度が未知の場合」で確認した$\mathbf{x}^{\top} \boldsymbol{\Lambda} \mathbf{x} = \mathrm{Tr}(\mathbf{x} \mathbf{x}^{\top} \boldsymbol{\Lambda})$の関係を用いて、それぞれ項を変形する。
  4. トレースの性質$\mathrm{Tr}(\mathbf{A} + \mathbf{B}) = \mathrm{Tr}(\mathbf{A}) + \mathrm{Tr}(\mathbf{B})$より、項をまとめる。

となる。適宜$\boldsymbol{\Lambda}_k$に影響しない項を$\mathrm{const.}$にまとめている。

 式(4.116)について

$$ \begin{aligned} \hat{\mathbf{W}}_k^{-1} &= \sum_{n=1}^N \mathbb{E}_{q(\mathbf{s}_n)} [s_{n,k}] \mathbf{x}_n \mathbf{x}_n^{\top} + \beta \mathbf{m} \mathbf{m}^{\top} - \hat{\beta}_k \hat{\mathbf{m}}_k \hat{\mathbf{m}}^{\top} + \mathbf{W}^{-1} \\ \hat{\nu}_k &= \sum_{n=1}^N \mathbb{E}_{q(\mathbf{s}_n)} [s_{n,k}] + \nu \end{aligned} \tag{4.118} $$

とおき

$$ \ln q(\boldsymbol{\Lambda}_k) = \frac{\hat{\nu}_k - D - 1}{2} \ln |\boldsymbol{\Lambda}_k| - \frac{1}{2} \mathrm{Tr}(\hat{\mathbf{W}}_k^{-1} \boldsymbol{\Lambda}_k) + \ln C_{\mathcal{W}}(\hat{\nu}_k, \hat{\mathbf{W}}_k) $$

さらに$\ln$を外し、$\mathrm{const.}$を正規化項に置き換える(正規化する)と

$$ q(\boldsymbol{\Lambda}_k) = C_{\mathcal{W}}(\hat{\nu}_k, \hat{\mathbf{W}}_k) |\boldsymbol{\Lambda}_k|^{\frac{\hat{\nu}_k - D - 1}{2}} \exp \left\{ - \frac{1}{2} \mathrm{Tr}(\hat{\mathbf{W}}_k^{-1} \boldsymbol{\Lambda}_k) \right\} = \mathcal{W}(\boldsymbol{\Lambda}_k | \hat{\nu}_k, \hat{\mathbf{W}}_k) \tag{4.117} $$

$\boldsymbol{\Lambda}_k$の近似事後分布は、パラメータ$\hat{\mathbf{W}}_k$を持つ自由度$\hat{\nu}_k$のウィシャート分布になることが分かる。

・混合比率の近似事後分布

 続いて、$\boldsymbol{\mu},\ \boldsymbol{\Lambda},\ \boldsymbol{\pi}$の近似事後分布(4.110)を$\boldsymbol{\pi}$に関して整理すると、「4.3.3:ポアソン混合モデルにおける推論:変分推論」の式(4.56)と同じ式になるので、$\boldsymbol{\pi}$の近似事後分布は4.3.3項で導出した

$$ q(\boldsymbol{\pi}) = C_D(\boldsymbol{\alpha}) \prod_{k=1}^K \pi_k^{\hat{\alpha}_k-1} = \mathrm{Dir}(\boldsymbol{\pi} | \hat{\boldsymbol{\alpha}}) \tag{4.57} $$

パラメータ$\hat{\boldsymbol{\alpha}} = (\hat{\alpha}_1, \hat{\alpha}_2, \cdots, \hat{\alpha}_K)$を持つディリクレ分布になることが分かる。
 また、超パラメータ$\hat{\alpha}_k$の計算式(更新式)は

$$ \begin{align} \hat{\alpha}_k &= \sum_{n=1}^N \mathbb{E}_{q(\mathbf{s}_n)} [s_{n,k}] + \alpha_k \tag{4.58}\\ \mathbb{E}_{q(\mathbf{s}_n)} [s_{n,k}] &= \eta_{n,k} \tag{4.59} \end{align} $$

である。

・潜在変数の近似事後分布のパラメータの計算

 各分布が明らかになったので、最後に$\eta_{n,k}$の計算式(更新式)(4.109)の各項について確認する。

 $q(\boldsymbol{\Lambda}_k) = \mathcal{W}(\boldsymbol{\Lambda}_k | \hat{\nu}_k, \hat{\mathbf{W}}_k)$なので、ウィシャート分布の期待値(2.89)、ウィシャート分布の対数の期待値(2.90)より

$$ \begin{align} \mathbb{E}_{q(\boldsymbol{\Lambda}_k)} [ \boldsymbol{\Lambda}_k ] &= \hat{\nu} \hat{\mathbf{W}}_k \tag{4.119}\\ \mathbb{E}_{q(\boldsymbol{\Lambda}_k)} [ \ln |\boldsymbol{\Lambda}_k| ] &= \sum_{d=1}^D \psi \Bigl( \frac{\hat{\nu}_k + 1 - d}{2} \Bigr) + D \ln 2 + \ln |\hat{\mathbf{W}}_k| \tag{4.120} \end{align} $$

で計算できる。

 さらに、$q(\boldsymbol{\mu}_k | \boldsymbol{\Lambda}_k) = \mathcal{N}(\boldsymbol{\mu}_k | \hat{\mathbf{m}}_k, (\hat{\beta}_k \boldsymbol{\Lambda}_k)^{-1})$なので、多次元ガウス分布の期待値(2.76)を用いて、$\mathbb{E}_{q(\boldsymbol{\mu}_k, \boldsymbol{\Lambda}_k)} [ \boldsymbol{\Lambda}_k \boldsymbol{\mu}_k]$を計算する。期待値を積分計算の式に書き直して、$q(\boldsymbol{\mu}_k, \boldsymbol{\Lambda}_k)$を分解する。

$$ \begin{aligned} \mathbb{E}_{q(\boldsymbol{\mu}_k, \boldsymbol{\Lambda}_k)} [ \boldsymbol{\Lambda}_k \boldsymbol{\mu}_k ] &= \iint q(\boldsymbol{\mu}_k, \boldsymbol{\Lambda}_k) \boldsymbol{\Lambda}_k \boldsymbol{\mu}_k d\boldsymbol{\mu}_k d\boldsymbol{\Lambda}_k \\ &= \int q(\boldsymbol{\Lambda}_k) \boldsymbol{\Lambda}_k \int q(\boldsymbol{\mu}_k | \boldsymbol{\Lambda}_k) \boldsymbol{\mu}_k d\boldsymbol{\mu}_k d\boldsymbol{\Lambda}_k \end{aligned} $$

$q(\boldsymbol{\mu}_k | \boldsymbol{\Lambda}_k)$は$\boldsymbol{\Lambda}_k$を含むので、$\boldsymbol{\Lambda}_k$の積分の中で$\boldsymbol{\mu}_k$の積分をする式になる。$\boldsymbol{\mu}_k$の期待値(積分)計算を行う。

$$ \begin{aligned} \mathbb{E}_{q(\boldsymbol{\mu}_k, \boldsymbol{\Lambda}_k)} [ \boldsymbol{\Lambda}_k \boldsymbol{\mu}_k ] &= \int q(\boldsymbol{\Lambda}_k) \boldsymbol{\Lambda}_k \mathbb{E}_{q(\boldsymbol{\mu}_k | \boldsymbol{\Lambda}_k)} [ \boldsymbol{\mu}_k ] d\boldsymbol{\Lambda}_k \\ &= \int q(\boldsymbol{\Lambda}_k) \boldsymbol{\Lambda}_k \hat{\mathbf{m}}_k d\boldsymbol{\Lambda}_k \end{aligned} $$

$\boldsymbol{\mu}_k$の期待値が$\boldsymbol{\Lambda}_k$と無関係になったので、$\boldsymbol{\mu}_k$の積分の外に出し、$\boldsymbol{\Lambda}_k$の期待値計算を行うと

$$ \begin{align} \mathbb{E}_{q(\boldsymbol{\mu}_k, \boldsymbol{\Lambda}_k)} [ \boldsymbol{\Lambda}_k \boldsymbol{\mu}_k ] &= \int q(\boldsymbol{\Lambda}_k) \boldsymbol{\Lambda}_k d\boldsymbol{\Lambda}_k \hat{\mathbf{m}}_k \\ &= \mathbb{E}_{q(\boldsymbol{\Lambda}_k)} [ \boldsymbol{\Lambda}_k ] \hat{\mathbf{m}}_k \\ &= \hat{\nu} \hat{\mathbf{W}}_k \hat{\mathbf{m}}_k \tag{4.121} \end{align} $$

で計算できることが分かる。

 また、$\mathbb{E}_{q(\boldsymbol{\mu}_k, \boldsymbol{\Lambda}_k)} [\boldsymbol{\mu}_k^{\top} \boldsymbol{\Lambda}_k \boldsymbol{\mu}_k]$を積分の式に書き直して、3.4.3項で確認した$\mathbf{x}^{\top} \boldsymbol{\Lambda} \mathbf{x} = \mathrm{Tr}(\mathbf{x} \mathbf{x}^{\top} \boldsymbol{\Lambda})$の関係を用いて変形する。

$$ \begin{aligned} \mathbb{E}_{q(\boldsymbol{\mu}_k, \boldsymbol{\Lambda}_k)} [ \boldsymbol{\mu}_k^{\top} \boldsymbol{\Lambda}_k \boldsymbol{\mu}_k ] &= \iint q(\boldsymbol{\mu}_k, \boldsymbol{\Lambda}_k) \boldsymbol{\mu}_k^{\top} \boldsymbol{\Lambda}_k \boldsymbol{\mu}_k d\boldsymbol{\mu}_k d\boldsymbol{\Lambda}_k \\ &= \mathrm{Tr} \left( \iint q(\boldsymbol{\mu}_k, \boldsymbol{\Lambda}_k) \boldsymbol{\mu}_k \boldsymbol{\mu}_k^{\top} \boldsymbol{\Lambda}_k d\boldsymbol{\mu}_k d\boldsymbol{\Lambda}_k \right) \end{aligned} $$

($\mathrm{Tr}(\cdot)$と$\int$って、こんな風に出し入れしていいものなの?)$q(\boldsymbol{\mu}_k, \boldsymbol{\Lambda}_k)$を分解して、多次元ガウス分布の2乗の期待値(2.77)より、$\boldsymbol{\mu}_k$に関する期待値を計算する。

$$ \begin{aligned} \mathbb{E}_{q(\boldsymbol{\mu}_k, \boldsymbol{\Lambda}_k)} [ \boldsymbol{\mu}_k^{\top} \boldsymbol{\Lambda}_k \boldsymbol{\mu}_k ] &= \mathrm{Tr} \left( \iint q(\boldsymbol{\mu}_k | \boldsymbol{\Lambda}_k) \boldsymbol{\mu}_k \boldsymbol{\mu}_k^{\top} d\boldsymbol{\mu}_k q(\boldsymbol{\Lambda}_k) \boldsymbol{\Lambda}_k d\boldsymbol{\Lambda}_k \right) \\ &= \mathrm{Tr} \left( \int \mathbb{E}_{q(\boldsymbol{\mu}_k | \boldsymbol{\Lambda}_k)} [ \boldsymbol{\mu}_k \boldsymbol{\mu}_k^{\top} ] q(\boldsymbol{\Lambda}_k) \boldsymbol{\Lambda}_k d\boldsymbol{\Lambda}_k \right) \\ &= \mathrm{Tr} \left( \int \Bigl\{ \hat{\mathbf{m}}_k \hat{\mathbf{m}}_k^{\top} + (\hat{\beta}_k \boldsymbol{\Lambda}_k)^{-1} \Bigr\} q(\boldsymbol{\Lambda}_k) \boldsymbol{\Lambda}_k d\boldsymbol{\Lambda}_k \right) \end{aligned} $$

波括弧を展開して、$\boldsymbol{\Lambda}_k$に関する期待値を計算する。このとき、逆行列の性質$(\mathbf{A} \mathbf{B})^{-1} = \mathbf{B}^{-1} \mathbf{A}^{-1}$、$\mathbf{A} \mathbf{A}^{-1} = \mathbf{I}_D$を用いる。ただし、$\hat{\beta}_k$はスカラである。

$$ \begin{aligned} \mathbb{E}_{q(\boldsymbol{\mu}_k, \boldsymbol{\Lambda}_k)} [ \boldsymbol{\mu}_k^{\top} \boldsymbol{\Lambda}_k \boldsymbol{\mu}_k ] &= \mathrm{Tr} \left( \hat{\mathbf{m}}_k \hat{\mathbf{m}}_k^{\top} \int q(\boldsymbol{\Lambda}_k) \boldsymbol{\Lambda}_k d\boldsymbol{\Lambda}_k + \hat{\beta}_k^{-1} \int q(\boldsymbol{\Lambda}_k) \boldsymbol{\Lambda}_k^{-1} \boldsymbol{\Lambda}_k d\boldsymbol{\Lambda}_k \right) \\ &= \mathrm{Tr} \left( \hat{\mathbf{m}}_k \hat{\mathbf{m}}_k^{\top} \mathbb{E}_{q(\boldsymbol{\Lambda}_k)} [ \boldsymbol{\Lambda}_k ] + \hat{\beta}_k^{-1} \mathbf{I}_D \int q(\boldsymbol{\Lambda}_k) d\boldsymbol{\Lambda}_k \right) \\ &= \mathrm{Tr} \Bigl( \hat{\mathbf{m}}_k \hat{\mathbf{m}}_k^{\top} \hat{\nu} \hat{\mathbf{W}}_k + \hat{\beta}_k^{-1} \mathbf{I}_D \Bigr) \end{aligned} $$

トレースの性質$\mathrm{Tr}(\mathbf{A} \mathbf{B}) = \mathrm{Tr}(\mathbf{A}) + \mathrm{Tr}(\mathbf{B})$、$\mathrm{Tr}(c \mathbf{A}) = c \mathrm{Tr}(\mathbf{A})$より、項を分割して、トレースを計算すると

$$ \begin{align} \mathbb{E}_{q(\boldsymbol{\mu}_k, \boldsymbol{\Lambda}_k)} [ \boldsymbol{\mu}_k^{\top} \boldsymbol{\Lambda}_k \boldsymbol{\mu}_k ] &= \hat{\nu} \mathrm{Tr} \Bigl( \hat{\mathbf{m}}_k \hat{\mathbf{m}}_k^{\top} \hat{\mathbf{W}}_k \Bigr) + \hat{\beta}_k^{-1} \mathrm{Tr} \Bigl( \mathbf{I}_D \Bigr) \\ &= \hat{\nu} \hat{\mathbf{m}}_k^{\top} \hat{\mathbf{W}}_k \hat{\mathbf{m}}_k + \frac{D}{\hat{\beta}_k} \tag{4.122} \end{align} $$

となる。

 最後に、$q(\boldsymbol{\pi}) = \mathrm{Dir}(\boldsymbol{\pi} | \hat{\boldsymbol{\alpha}})$なので、ディリクレ分布の期待値(2.52)より

$$ \mathbb{E}_{q(\boldsymbol{\pi})} [ \ln \pi_k ] = \psi(\hat{\alpha}_k) - \psi \left( \sum_{k=1}^K \hat{\alpha}_k \right) \tag{4.62} $$

で計算できる。

参考文献

  • 須山敦志『ベイズ推論による機械学習入門』(機械学習スタートアップシリーズ)杉山将監修,講談社,2017年.

おわりに

 ブログ3年目初日の記事です!まだまだ楽しく頑張ります。

 と気持ちよくいきたいところですが、1つ分かりませんでした、、、また後日再挑戦します。

 そして2020年12月1日は、Juice=Juiceの宮本佳林さんの22歳のお誕生日です!おめでとうございます!

 卒業までもう僅か、、、でもソロデビュー後も楽しみ。あぁソロアルバムも待ち遠しい。でもJuiceのホールツアー観たかった、本当に、まなかりん。

 余談ですが、この本の攻略記事でグラフの色に紫を多用しているのは、この方のメンバーカラーだからです。この本を読み始めた頃に卒業を発表されて、ショックで紫色に染まっていきました。

【次節の内容】

www.anarchive-beta.com


  • 2021/04/27:加筆修正しました。

 上の件、解けました!