はじめに
『ベイズ推論による機械学習入門』の学習時のノートです。基本的な内容は「数式の行間を読んでみた」とそれを「RとPythonで組んでみた」になります。「数式」と「プログラム」から理解するのが目標です。
この記事は、4.4.3項の内容です。「観測モデルを平均と精度行列が未知の多次元ガウス混合分布(多変量正規混合分布)」、「事前分布をガウス・ウィシャート分布」とする混合モデルを変分推論により推論します。
省略してある内容等ありますので、本とあわせて読んでください。初学者な自分が理解できるレベルまで落として書き下していますので、分かる人にはかなりくどくなっています。同じような立場の人のお役に立てれば幸いです。
【実装編】
www.anarchive-beta.com
www.anarchive-beta.com
【他の節一覧】
www.anarchive-beta.com
【この節の内容】
4.4.3 変分推論
変分推論を用いて、ガウス混合モデルの事後分布$p(\mathbf{S}, \boldsymbol{\mu}, \boldsymbol{\Lambda}, \boldsymbol{\pi} | \mathbf{X})$の近似分布$q(\mathbf{S}, \boldsymbol{\mu}, \boldsymbol{\Lambda}, \boldsymbol{\pi})$を導出する。
観測データ$\mathbf{X}$が与えられた下での、潜在変数$\mathbf{S}$、観測モデルの平均パラメータ$\boldsymbol{\mu}$、精度行列パラメータ$\boldsymbol{\Lambda}$、混合比率パラメータ$\boldsymbol{\pi}$の事後分布$p(\mathbf{S}, \boldsymbol{\mu},\ \boldsymbol{\Lambda}, \boldsymbol{\pi} | \mathbf{X})$を、近似分解の仮定をおいた
$$
p(\mathbf{S}, \boldsymbol{\mu}, \boldsymbol{\Lambda}, \boldsymbol{\pi} | \mathbf{X})
\approx
q(\mathbf{S}, \boldsymbol{\mu}, \boldsymbol{\Lambda}, \boldsymbol{\pi})
= q(\mathbf{S})
q(\boldsymbol{\mu} | \boldsymbol{\Lambda})
q(\boldsymbol{\Lambda})
q(\boldsymbol{\pi})
\tag{4.104}
$$
で近似する。$q(\mathbf{S}, \boldsymbol{\mu}, \boldsymbol{\Lambda}, \boldsymbol{\pi})$を近似事後分布、または変分事後分布と呼ぶ。
・潜在変数の近似事後分布の導出
始めに、潜在変数$\mathbf{S}$の近似事後分布$q(\mathbf{S})$を求めていく。
$\mathbf{S}$の近似事後分布は、事後分布$p(\mathbf{S}, \boldsymbol{\mu}, \boldsymbol{\Lambda}, \boldsymbol{\pi} | \mathbf{X})$と$q(\boldsymbol{\mu}, \boldsymbol{\Lambda}, \boldsymbol{\pi})$を固定した近似分布$q(\mathbf{S}, \boldsymbol{\mu}, \boldsymbol{\Lambda}, \boldsymbol{\pi})$に対して、4.2.2項で求めた変分推論の公式(4.25)を用いて
$$
\begin{align}
\ln q(\mathbf{S})
&= \mathbb{E}_{q(\boldsymbol{\mu}, \boldsymbol{\Lambda}, \boldsymbol{\pi})} \Bigl[
\ln p(\mathbf{S}, \boldsymbol{\mu}, \boldsymbol{\Lambda}, \boldsymbol{\pi} | \mathbf{X})
\Bigr]
+ \mathrm{const.}
\\
&= \mathbb{E}_{q(\boldsymbol{\mu}, \boldsymbol{\Lambda}, \boldsymbol{\pi})} \left[
\ln \frac{
p(\mathbf{X}, \mathbf{S}, \boldsymbol{\mu}, \boldsymbol{\Lambda}, \boldsymbol{\pi})
}{
p(\mathbf{X})
}
\right]
+ \mathrm{const.}
\\
&= \mathbb{E}_{q(\boldsymbol{\mu}, \boldsymbol{\Lambda}, \boldsymbol{\pi})} \Bigl[
\ln p(\mathbf{X} | \mathbf{S}, \boldsymbol{\mu}, \boldsymbol{\Lambda})
+ \ln p(\mathbf{S} | \boldsymbol{\pi})
+ \ln p(\boldsymbol{\mu}, \boldsymbol{\Lambda})
+ \ln p(\boldsymbol{\pi})
- \ln p(\mathbf{X})
\Bigr]
+ \mathrm{const.}
\\
&= \mathbb{E}_{q(\boldsymbol{\mu}, \boldsymbol{\Lambda}, \boldsymbol{\pi})} \Bigl[
\ln p(\mathbf{X} | \mathbf{S}, \boldsymbol{\mu}, \boldsymbol{\Lambda})
\Bigr]
+ \mathbb{E}_{q(\boldsymbol{\mu}, \boldsymbol{\Lambda}, \boldsymbol{\pi})} \Bigl[
\ln p(\mathbf{S} | \boldsymbol{\pi})
\Bigr] \\
&\qquad
+ \mathbb{E}_{q(\boldsymbol{\mu}, \boldsymbol{\Lambda}, \boldsymbol{\pi})} \Bigl[
\ln p(\boldsymbol{\mu}, \boldsymbol{\Lambda})
\Bigr]
+ \mathbb{E}_{q(\boldsymbol{\mu}, \boldsymbol{\Lambda}, \boldsymbol{\pi})} \Bigl[
\ln p(\boldsymbol{\pi})
\Bigr]
- \mathbb{E}_{q(\boldsymbol{\mu}, \boldsymbol{\Lambda}, \boldsymbol{\pi})} \Bigl[
\ln p(\mathbf{X})
\Bigr]
+ \mathrm{const.}
\\
&= \mathbb{E}_{q(\boldsymbol{\mu}, \boldsymbol{\Lambda})} \left[
\sum_{n=1}^N
\ln p(\mathbf{x}_n | \mathbf{s}_n, \boldsymbol{\mu}, \boldsymbol{\Lambda})
\right]
+ \mathbb{E}_{q(\boldsymbol{\pi})} \left[
\sum_{n=1}^N
\ln p(\mathbf{s}_n | \boldsymbol{\pi})
\right]
+ \mathrm{const.}
\\
&= \sum_{n=1}^N \Bigl\{
\mathbb{E}_{q(\boldsymbol{\mu}, \boldsymbol{\Lambda})} \Bigl[
\ln p(\mathbf{x}_n | \mathbf{s}_n, \boldsymbol{\mu}, \boldsymbol{\Lambda})
\Bigr]
+ \mathbb{E}_{q(\boldsymbol{\pi})} \Bigl[
\ln p(\mathbf{s}_n | \boldsymbol{\pi})
\Bigr]
\Bigr\}
+ \mathrm{const.}
\tag{4.105}\\
&= \sum_{n=1}^N \left\{
\mathbb{E}_{q(\boldsymbol{\mu}, \boldsymbol{\Lambda})} \left[
\sum_{k=1}^K
\ln \mathcal{N}(\mathbf{x}_n | \boldsymbol{\mu}_k, \boldsymbol{\Lambda}_k^{-1})^{s_{n,k}}
\right]
+ \mathbb{E}_{q(\boldsymbol{\pi})} \Bigl[
\ln \mathrm{Cat}(\mathbf{s}_n | \boldsymbol{\pi})
\Bigr]
\right\}
+ \mathrm{const.}
\end{align}
$$
で求められる。4.4.1項「ガウス混合モデル」で確認した各変数の生成過程(依存関係)に従い項を分解している。また、適宜$\mathbf{S}$に影響しない項を$\mathrm{const.}$にまとめて比例関係に注目する。省略した部分については、最後に正規化することで対応できる。
連続値の期待値の定義$\mathbb{E}_{q(\boldsymbol{\mu})}[\boldsymbol{\mu}] = \int q(\boldsymbol{\mu}) \boldsymbol{\mu} d\boldsymbol{\mu}$より、$\boldsymbol{\mu}$に影響しない項は$\mathbb{E}_{q(\boldsymbol{\mu})}[\cdot]$の外に出せる。また、連続値の確率分布の定義より$\int q(\boldsymbol{\mu}) d\boldsymbol{\mu} = 1$なので、期待値の括弧内($\int$の中)の項がなくなると1となり消える。$\boldsymbol{\Lambda},\ \boldsymbol{\pi}$についても同様である。
$n$番目の潜在変数(ある1つのデータのクラスタ)$\mathbf{s}_n$の近似事後分布の具体的な形状を明らかにしていく。前の項は
$$
\begin{align}
\mathbb{E}_{q(\boldsymbol{\mu}, \boldsymbol{\Lambda})} \Bigl[
\ln p(\mathbf{x}_n | \mathbf{s}_n, \boldsymbol{\mu}, \boldsymbol{\Lambda})
\Bigr]
&= \mathbb{E}_{q(\boldsymbol{\mu}, \boldsymbol{\Lambda})} \left[
\sum_{k=1}^K
s_{n,k} \ln \mathcal{N}(\mathbf{x}_n | \boldsymbol{\mu}_k, \boldsymbol{\Lambda}_k^{-1})
\right]
\\
&= \sum_{k=1}^K
s_{n,k}
\mathbb{E}_{q(\boldsymbol{\mu}_k, \boldsymbol{\Lambda}_k)} \left[
- \frac{1}{2}
(\mathbf{x}_n - \boldsymbol{\mu}_k)^{\top}
\boldsymbol{\Lambda}_k
(\mathbf{x}_n - \boldsymbol{\mu}_k)
- \frac{1}{2}
\ln |\boldsymbol{\Lambda}_k^{-1}|
- \frac{D}{2} \ln 2 \pi
\right]
\\
&= \sum_{k=1}^K
s_{n,k}
\mathbb{E}_{q(\boldsymbol{\mu}_k, \boldsymbol{\Lambda}_k)} \left[
- \frac{1}{2}
\mathbf{x}_n^{\top} \boldsymbol{\Lambda}_k \mathbf{x}_n
- \mathbf{x}_n^{\top} \boldsymbol{\Lambda}_k \boldsymbol{\mu}_k
+ \frac{1}{2}
\boldsymbol{\mu}_k^{\top} \boldsymbol{\Lambda}_k \boldsymbol{\mu}_k
+ \frac{1}{2}
\ln |\boldsymbol{\Lambda}_k|
\right]
+ \mathrm{const.}
\\
&= \sum_{k=1}^K
s_{n,k} \left\{
- \frac{1}{2} \mathbf{x}_n^{\top}
\mathbb{E}_{q(\boldsymbol{\Lambda}_k)} [
\boldsymbol{\Lambda}_k
]
\mathbf{x}_n
- \mathbf{x}_n^{\top}
\mathbb{E}_{q(\boldsymbol{\mu}_k, \boldsymbol{\Lambda}_k)} [
\boldsymbol{\Lambda}_k \boldsymbol{\mu}_k
]
+ \frac{1}{2}
\mathbb{E}_{q(\boldsymbol{\mu}_k, \boldsymbol{\Lambda}_k)} [
\boldsymbol{\mu}_k^{\top} \boldsymbol{\Lambda}_k \boldsymbol{\mu}_k
]
\right. \\
&\qquad \left.
+ \frac{1}{2}
\mathbb{E}_{q(\boldsymbol{\Lambda}_k)} [
\ln |\boldsymbol{\Lambda}_k|
]
\right\}
+ \mathrm{const.}
\tag{4.106}
\end{align}
$$
となる。ここで、2行目の最後の項の$\pi$は混合比率ではなく円周率である。$\sum_{k=1}^K s_{n,k} = 1$なので、$\sum_{k=1}^K - s_{n,k} \frac{D}{2} \ln 2 \pi = - \frac{D}{2} \ln 2 \pi$となり$\mathbf{s}_n$の影響を受けなくなるので$\mathrm{const.}$に含める。また、行列式の性質$|\mathbf{A}^{-1}| = |\mathbf{A}|^{-1}$、自然対数の性質$\ln x^{-1} = - \ln x$より、$\ln |\boldsymbol{\Lambda}_k^{-1}| = - \ln |\boldsymbol{\Lambda}_k|$である。
後の項は
$$
\begin{align}
\mathbb{E}_{q(\boldsymbol{\pi})} \Bigl[
\ln p(\mathbf{s}_n | \boldsymbol{\pi})
\Bigr]
&= \mathbb{E}_{q(\boldsymbol{\pi})} \Bigl[
\ln \mathrm{Cat}(\mathbf{s}_n | \boldsymbol{\pi})
\Bigr]
\\
&= \mathbb{E}_{q(\boldsymbol{\pi})} \left[
\ln \prod_{k=1}^K \pi_k^{s_{n,k}}
\right]
\\
&= \mathbb{E}_{q(\boldsymbol{\pi})} \left[
\sum_{k=1}^K s_{n,k} \ln \pi_k
\right]
\\
&= \sum_{k=1}^K
s_{n,k}
\mathbb{E}_{q(\boldsymbol{\pi})} [
\ln \pi_k
]
\tag{4.107}
\end{align}
$$
となる。
よって、式(4.106)と式(4.107)を$n$番目のデータに関係する項を取り出した式(4.105)に代入すると
$$
\begin{align}
\ln q(\mathbf{s}_n)
&= \mathbb{E}_{q(\boldsymbol{\mu}, \boldsymbol{\Lambda})} \Bigl[
\ln p(\mathbf{x}_n | \mathbf{s}_n, \boldsymbol{\mu}, \boldsymbol{\Lambda})
\Bigr]
+ \mathbb{E}_{q(\boldsymbol{\pi})} \Bigl[
\ln p(\mathbf{s}_n | \boldsymbol{\pi})
\Bigr]
+ \mathrm{const.}
\tag{4.105'}\\
&= \sum_{k=1}^K
s_{n,k} \left\{
- \frac{1}{2} \mathbf{x}_n^{\top}
\mathbb{E}_{q(\boldsymbol{\Lambda}_k)} [
\boldsymbol{\Lambda}_k
]
\mathbf{x}_n
- \mathbf{x}_n^{\top}
\mathbb{E}_{q(\boldsymbol{\mu}_k, \boldsymbol{\Lambda}_k)} [
\boldsymbol{\Lambda}_k \boldsymbol{\mu}_k
]
+ \frac{1}{2}
\mathbb{E}_{q(\boldsymbol{\mu}_k, \boldsymbol{\Lambda}_k)} [
\boldsymbol{\mu}_k^{\top} \boldsymbol{\Lambda}_k \boldsymbol{\mu}_k
]
+ \frac{1}{2}
\mathbb{E}_{q(\boldsymbol{\Lambda}_k)} [
\ln |\boldsymbol{\Lambda}_k|
]
\right\} \\
&\qquad
+ \sum_{k=1}^K
s_{n,k}
\mathbb{E}_{q(\boldsymbol{\pi})} [
\ln \pi_k
]
+ \mathrm{const.}
\\
&= \sum_{k=1}^K
s_{n,k} \left\{
- \frac{1}{2} \mathbf{x}_n^{\top}
\mathbb{E}_{q(\boldsymbol{\Lambda}_k)} [
\boldsymbol{\Lambda}_k
]
\mathbf{x}_n
- \mathbf{x}_n^{\top}
\mathbb{E}_{q(\boldsymbol{\mu}_k, \boldsymbol{\Lambda}_k)} [
\boldsymbol{\Lambda}_k \boldsymbol{\mu}_k
]
+ \frac{1}{2}
\mathbb{E}_{q(\boldsymbol{\mu}_k, \boldsymbol{\Lambda}_k)} [
\boldsymbol{\mu}_k^{\top} \boldsymbol{\Lambda}_k \boldsymbol{\mu}_k
]
+ \frac{1}{2}
\mathbb{E}_{q(\boldsymbol{\Lambda}_k)} [
\ln |\boldsymbol{\Lambda}_k|
]
+ \mathbb{E}_{q(\boldsymbol{\pi})} [
\ln \pi_k
]
\right\}
+ \mathrm{const.}
\end{align}
$$
となる。適宜$\mathbf{s}_n$に影響しない項を$\mathrm{const.}$にまとめている。
この式について
$$
\begin{align}
\eta_{n,k}
&\propto
\exp \Biggl\{
- \frac{1}{2} \mathbf{x}_n^{\top}
\mathbb{E}_{q(\boldsymbol{\Lambda}_k)} [
\boldsymbol{\Lambda}_k
]
\mathbf{x}_n
- \mathbf{x}_n^{\top}
\mathbb{E}_{q(\boldsymbol{\mu}_k, \boldsymbol{\Lambda}_k)} [
\boldsymbol{\Lambda}_k \boldsymbol{\mu}_k
]
+ \frac{1}{2}
\mathbb{E}_{q(\boldsymbol{\mu}_k, \boldsymbol{\Lambda}_k)} [
\boldsymbol{\mu}_k^{\top} \boldsymbol{\Lambda}_k \boldsymbol{\mu}_k
]
\Biggr.\\
&\qquad \Biggl.
+ \frac{1}{2}
\mathbb{E}_{q(\boldsymbol{\Lambda}_k)} [
\ln |\boldsymbol{\Lambda}_k|
]
+ \mathbb{E}_{q(\boldsymbol{\pi})} [
\ln \pi_k
]
\Biggr\}
\tag{4.109}
\end{align}
$$
とおき
$$
\ln q(\mathbf{s}_n)
= \sum_{k=1}^K s_{n,k} \ln \eta_{n,k}
+ \mathrm{const.}
$$
さらに$\ln$を外し、$\sum_{k=1}^K \eta_{n,k} = 1$となるように正規化する($\mathrm{const.}$を正規化項に置き換える)と
$$
q(\mathbf{s}_n)
= \prod_{k=1}^K \eta_{n,k}^{s_{n,k}}
= \mathrm{Cat}(\mathbf{s}_n | \boldsymbol{\eta}_n)
\tag{4.108}
$$
$\mathbf{s}_n$の近似事後分布は、パラメータ$\boldsymbol{\eta}_n = (\eta_{n,1}, \eta_{n,2}, \cdots, \eta_{n,K})$を持つカテゴリ分布になることが分かる。
$\eta_{n,k}$の計算式(更新式)(4.109)については、$q(\boldsymbol{\mu}_k | \boldsymbol{\Lambda}_k),\ q(\boldsymbol{\Lambda}_k),\ q(\boldsymbol{\pi})$の形状を明らかにしてから確認する。
・パラメータの近似事後分布の導出
次に、パラメータ$\boldsymbol{\mu},\ \boldsymbol{\Lambda},\ \boldsymbol{\pi}$の(同時)近似事後分布$q(\boldsymbol{\mu} | \boldsymbol{\Lambda})$から、各パラメータの近似事後分布$q(\boldsymbol{\mu}, \boldsymbol{\Lambda}, \boldsymbol{\pi}),\ q(\boldsymbol{\Lambda}),\ q(\boldsymbol{\pi})$を求めていく。
$\boldsymbol{\mu},\ \boldsymbol{\Lambda},\ \boldsymbol{\pi}$の近似事後分布は、事後分布$p(\mathbf{S}, \boldsymbol{\mu}, \boldsymbol{\Lambda}, \boldsymbol{\pi} | \mathbf{X})$と$q(\mathbf{S})$を固定した近似分布$q(\mathbf{S}, \boldsymbol{\mu}, \boldsymbol{\Lambda}, \boldsymbol{\pi})$に対して、変分推論の公式(4.25)を用いて
$$
\begin{align}
\ln q(\boldsymbol{\mu}, \boldsymbol{\Lambda}, \boldsymbol{\pi})
&= \mathbb{E}_{q(\mathbf{S})} \Bigl[
\ln p(\mathbf{S}, \boldsymbol{\mu}, \boldsymbol{\Lambda}, \boldsymbol{\pi} | \mathbf{X})
\Bigr]
+ \mathrm{const.}
\\
&= \mathbb{E}_{q(\mathbf{S})} \left[
\ln \frac{
p(\mathbf{X}, \mathbf{S}, \boldsymbol{\mu}, \boldsymbol{\Lambda}, \boldsymbol{\pi})
}{
p(\mathbf{X})
}
\right]
+ \mathrm{const.}
\\
&= \mathbb{E}_{q(\mathbf{S})} \Bigl[
\ln p(\mathbf{X} | \mathbf{S}, \boldsymbol{\mu}, \boldsymbol{\Lambda})
+ \ln p(\boldsymbol{\mu} | \boldsymbol{\Lambda})
+ \ln p(\boldsymbol{\Lambda})
+ \ln p(\mathbf{S} | \boldsymbol{\pi})
+ \ln p(\boldsymbol{\pi})
- \ln p(\mathbf{X})
\Bigr]
+ \mathrm{const.}
\\
&= \mathbb{E}_{q(\mathbf{S})} \Bigl[
\ln p(\mathbf{X} | \mathbf{S}, \boldsymbol{\mu}, \boldsymbol{\Lambda})
\Bigr]
+ \mathbb{E}_{q(\mathbf{S})} \Bigl[
\ln p(\boldsymbol{\mu} | \boldsymbol{\Lambda})
\Bigr]
+ \mathbb{E}_{q(\mathbf{S})} \Bigl[
\ln p(\boldsymbol{\Lambda})
\Bigr] \\
&\qquad
+ \mathbb{E}_{q(\mathbf{S})} \Bigl[
\ln p(\mathbf{S} | \boldsymbol{\pi})
\Bigr]
+ \mathbb{E}_{q(\mathbf{S})} \Bigl[
\ln p(\boldsymbol{\pi})
\Bigr]
- \mathbb{E}_{q(\mathbf{S})} \Bigl[
\ln p(\mathbf{X})
\Bigr]
+ \mathrm{const.}
\\
&= \mathbb{E}_{q(\mathbf{S})} \Bigl[
\ln p(\mathbf{X} | \mathbf{S}, \boldsymbol{\mu}, \boldsymbol{\Lambda})
\Bigr]
+ \ln p(\boldsymbol{\mu} | \boldsymbol{\Lambda})
+ \ln p(\boldsymbol{\Lambda})
+ \mathbb{E}_{q(\mathbf{S})} \Bigl[
\ln p(\mathbf{S} | \boldsymbol{\pi})
\Bigr]
+ \ln p(\boldsymbol{\pi})
+ \mathrm{const.}
\tag{4.110}\\
&= \mathbb{E}_{q(\mathbf{S})} \left[
\sum_{n=1}^N
\ln p(\mathbf{x}_n | \mathbf{S}, \boldsymbol{\mu}, \boldsymbol{\Lambda})
\right]
+ \sum_{k=1}^K
\ln p(\boldsymbol{\mu}_k | \boldsymbol{\Lambda}_k)
+ \sum_{k=1}^K
\ln p(\boldsymbol{\Lambda}_k) \\
&\qquad
+ \mathbb{E}_{q(\mathbf{S})} \left[
\sum_{n=1}^N
\ln p(\mathbf{s}_n | \boldsymbol{\pi})
\right]
+ \ln p(\boldsymbol{\pi})
+ \mathrm{const.}
\\
&= \sum_{n=1}^N
\mathbb{E}_{q(\mathbf{s}_n)} \left[
\sum_{k=1}^K
\ln \mathcal{N}(\mathbf{x}_n | \boldsymbol{\mu}_k, \boldsymbol{\Lambda}_k^{-1})^{s_{n,k}}
\right]
+ \sum_{k=1}^K
\ln \mathcal{N}(\boldsymbol{\mu}_k | \mathbf{m}, (\beta \boldsymbol{\Lambda}_k)^{-1})
+ \sum_{k=1}^K
\ln \mathcal{W}(\boldsymbol{\Lambda}_k | \nu, \mathbf{W}) \\
&\qquad
+ \sum_{n=1}^N
\mathbb{E}_{q(\mathbf{s}_n)} \Bigl[
\ln \mathrm{Cat}(\mathbf{s}_n | \boldsymbol{\pi})
\Bigr]
+ \ln \mathrm{Dir}(\boldsymbol{\pi} | \boldsymbol{\alpha})
+ \mathrm{const.}
\end{align}
$$
で求められる。こちらも生成過程に従い項を分解して、$\boldsymbol{\mu},\ \boldsymbol{\Lambda},\ \boldsymbol{\pi}$に影響しない項を省く。$\mathbf{S}$と無関係な項は$\mathbb{E}_{q(\mathbf{S})} [\cdot]$の外に出せる。
また、左辺の(対数をとった同時)近似事後分布は
$$
\ln q(\boldsymbol{\mu}, \boldsymbol{\Lambda}, \boldsymbol{\pi})
= \ln q(\boldsymbol{\mu} | \boldsymbol{\Lambda})
+ \ln q(\boldsymbol{\Lambda})
+ \ln q(\boldsymbol{\pi})
$$
と分解できる。
この式を用いて、$\boldsymbol{\mu},\ \boldsymbol{\Lambda},\ \boldsymbol{\pi}$それぞれの近似事後分布の具体的な形状を明らかにしていく。
・平均パラメータの近似事後分布
式(4.110)を$\boldsymbol{\mu},\ \boldsymbol{\Lambda}$に関して整理する($\boldsymbol{\mu},\ \boldsymbol{\Lambda}$に影響しない項を$\mathrm{const.}$にまとめる)と
$$
\begin{align}
\ln q(\boldsymbol{\mu} | \boldsymbol{\Lambda})
+ \ln q(\boldsymbol{\Lambda})
&= \mathbb{E}_{q(\mathbf{S})} \Bigl[
\ln p(\mathbf{X} | \mathbf{S}, \boldsymbol{\mu}, \boldsymbol{\Lambda})
\Bigr]
+ \ln p(\boldsymbol{\mu} | \boldsymbol{\Lambda})
+ \ln p(\boldsymbol{\Lambda})
- \ln q(\boldsymbol{\pi})
+ \mathrm{const.}
\\
&= \sum_{n=1}^N
\mathbb{E}_{q(\mathbf{s}_n)} \left[
\sum_{k=1}^K
s_{n,k} \ln \mathcal{N}(\mathbf{x}_n | \boldsymbol{\mu}_k, \boldsymbol{\Lambda}_k^{-1})
\right] \\
&\qquad
+ \sum_{k=1}^K
\ln \mathcal{N}(\boldsymbol{\mu}_k | \mathbf{m}, (\beta \boldsymbol{\Lambda}_k)^{-1})
+ \sum_{k=1}^K
\ln \mathcal{W}(\boldsymbol{\Lambda}_k | \nu, \mathbf{W})
+ \mathrm{const.}
\\
&= \sum_{k=1}^K \Biggl\{
\sum_{n=1}^N
\mathbb{E}_{q(\mathbf{s}_n)} [
s_{n,k}
]
\ln \mathcal{N}(\mathbf{x}_n | \boldsymbol{\mu}_k, \boldsymbol{\Lambda}_k^{-1})
\Biggr. \\
&\qquad \Biggl.
+ \ln \mathcal{N}(\boldsymbol{\mu}_k | \mathbf{m}, (\beta \boldsymbol{\Lambda}_k)^{-1})
+ \ln \mathcal{W}(\boldsymbol{\Lambda}_k | \nu, \mathbf{W})
\Biggr\}
+ \mathrm{const.}
\tag{4.111}
\end{align}
$$
となる。$\ln q(\boldsymbol{\pi})$は左辺から移項したものである。
$\boldsymbol{\mu},\ \boldsymbol{\Lambda}$の(同時)近似事後分布(4.111)から$k$に関係する項を取り出して、$\boldsymbol{\mu}_k$に関して整理する($\boldsymbol{\mu}_k$に影響しない項を$\mathrm{const.}$にまとめる)と
$$
\begin{align}
\ln q(\boldsymbol{\mu}_k | \boldsymbol{\Lambda}_k)
&= \sum_{n=1}^N
\mathbb{E}_{q(\mathbf{s}_n)} [
s_{n,k}
]
\ln \mathcal{N}(\mathbf{x}_n | \boldsymbol{\mu}_k, \boldsymbol{\Lambda}_k^{-1})
+ \ln \mathcal{N}(\boldsymbol{\mu}_k | \mathbf{m}, (\beta \boldsymbol{\Lambda}_k)^{-1})
- \ln q(\boldsymbol{\Lambda}_k)
+ \mathrm{const.}
\\
&= - \sum_{n=1}^N
\mathbb{E}_{q(\mathbf{s}_n)} [
s_{n,k}
]
\frac{1}{2} \Bigl\{
(\mathbf{x}_n - \boldsymbol{\mu}_k)^{\top}
\boldsymbol{\Lambda}_k
(\mathbf{x}_n - \boldsymbol{\mu}_k)
+ \ln |\boldsymbol{\Lambda}_k^{-1}|
+ D \ln 2 \pi
\Bigr\} \\
&\qquad
- \frac{1}{2} \Bigl\{
(\boldsymbol{\mu}_k - \mathbf{m})^{\top}
\beta \boldsymbol{\Lambda}_k
(\boldsymbol{\mu}_k - \mathbf{m})
+ \ln |(\beta \boldsymbol{\Lambda}_k)^{-1}|
+ D \ln 2 \pi
\Bigr\}
+ \mathrm{const.}
\\
&= - \sum_{n=1}^N
\mathbb{E}_{q(\mathbf{s}_n)} [
s_{n,k}
]
\frac{1}{2} \Bigl\{
\mathbf{x}_n^{\top} \boldsymbol{\Lambda}_k \mathbf{x}_n
- 2 \boldsymbol{\mu}_k^{\top} \boldsymbol{\Lambda}_k \mathbf{x}_n
+ \boldsymbol{\mu}_k^{\top} \boldsymbol{\Lambda}_k \boldsymbol{\mu}_k
\Bigr\} \\
&\qquad
- \frac{1}{2} \Bigl\{
\boldsymbol{\mu}_k^{\top} \beta \boldsymbol{\Lambda}_k \boldsymbol{\mu}_k
- 2 \boldsymbol{\mu}_k^{\top} \beta \boldsymbol{\Lambda}_k \mathbf{m}
+ \mathbf{m}^{\top} \beta \boldsymbol{\Lambda}_k \mathbf{m}
\Bigr\}
+ \mathrm{const.}
\\
&= - \frac{1}{2} \Biggl\{
- 2 \boldsymbol{\mu}_k^{\top}
\boldsymbol{\Lambda}_k
\sum_{n=1}^N
\mathbb{E}_{q(\mathbf{s}_n)} [s_{n,k}]
\mathbf{x}_n
+ \boldsymbol{\mu}_k^{\top}
\sum_{n=1}^N \mathbb{E}_{q(\mathbf{s}_n)} [s_{n,k}]
\boldsymbol{\Lambda}_k
\boldsymbol{\mu}_k
+ \boldsymbol{\mu}_k^{\top} \beta \boldsymbol{\Lambda}_k \boldsymbol{\mu}_k
- 2 \boldsymbol{\mu}_k^{\top} \beta \boldsymbol{\Lambda}_k \mathbf{m}
\Biggr\}
+ \mathrm{const.}
\\
&= - \frac{1}{2} \left\{
\boldsymbol{\mu}_k^{\top} \left(
\sum_{n=1}^N \mathbb{E}_{q(\mathbf{s}_n)} [s_{n,k}]
+ \beta
\right)
\boldsymbol{\Lambda}_k
\boldsymbol{\mu}_k
- 2 \boldsymbol{\mu}_k^{\top} \boldsymbol{\Lambda}_k \left(
\sum_{n=1}^N
\mathbb{E}_{q(\mathbf{s}_n)} [s_{n,k}]
\mathbf{x}_n
+ \beta \mathbf{m}
\right)
\right\}
+ \mathrm{const.}
\tag{4.112}
\end{align}
$$
となる。$\ln q(\boldsymbol{\Lambda}_k)$は左辺から移項したものである。また、$\sum_{n=1}^N \mathbb{E}_{q(\mathbf{s}_n)} [s_{n,k}]$はスカラである。
式(4.112)は式の形から多次元ガウス分布になることが分かる。そこで、$\boldsymbol{\mu}_k$の近似事後分布を平均$\hat{\mathbf{m}}_k$、精度$\hat{\beta}_k \boldsymbol{\Lambda}_k$の$D$次元ガウス分布
$$
q(\boldsymbol{\mu}_k | \boldsymbol{\Lambda}_k)
= \mathcal{N}(\boldsymbol{\mu}_k | \hat{\mathbf{m}}_k, (\hat{\beta}_k \boldsymbol{\Lambda}_k)^{-1})
\tag{4.113}
$$
とおく。この式の対数をとり、$\boldsymbol{\mu}_k$に関して整理すると
$$
\begin{aligned}
\ln q(\boldsymbol{\mu}_k | \boldsymbol{\Lambda}_k)
&= - \frac{1}{2} \Bigl\{
(\boldsymbol{\mu}_k - \hat{\mathbf{m}}_k)^{\top}
\hat{\beta}_k \boldsymbol{\Lambda}_k
(\boldsymbol{\mu}_k - \hat{\mathbf{m}}_k)
+ \ln |(\hat{\beta}_k \boldsymbol{\Lambda}_k)^{-1}|
+ D \ln 2 \pi
\Bigr\}
\\
&= - \frac{1}{2} \Bigl\{
\boldsymbol{\mu}_k^{\top} \hat{\beta}_k \boldsymbol{\Lambda}_k \boldsymbol{\mu}_k
- 2 \boldsymbol{\mu}_k^{\top} \hat{\beta}_k \boldsymbol{\Lambda}_k \hat{\mathbf{m}}_k
\Bigr\}
+ \mathrm{const.}
\end{aligned}
$$
となる。
したがって、式(4.112)との対応関係から、精度行列パラメータの係数は
$$
\hat{\beta}_k
= \sum_{n=1}^N
\mathbb{E}_{q(\mathbf{s}_n)} [s_{n,k}]
+ \beta
\tag{4.114.a}
$$
となり、また
$$
\hat{\beta}_k \hat{\mathbf{m}}_k
= \sum_{n=1}^N
\mathbb{E}_{q(\mathbf{s}_n)} [s_{n,k}]
\mathbf{x}_n
+ \beta \mathbf{m}
$$
なので、両辺を$\hat{\beta}_k$で割ると、平均パラメータは
$$
\hat{\mathbf{m}}_k
= \frac{
\sum_{n=1}^N
\mathbb{E}_{q(\mathbf{s}_n)} [s_{n,k}]
\mathbf{x}_n
+ \beta \mathbf{m}
}{
\hat{\beta}_k
}
\tag{4.114.b}
$$
と求められる。
・精度パラメータの近似事後分布
同様に、式(4.111)から$k$に関係する項を取り出して、$\boldsymbol{\Lambda}_k$に関して整理すると
$$
\begin{aligned}
\ln q(\boldsymbol{\Lambda}_k)
&= \mathbb{E}_{q(\mathbf{S})} \left[
\sum_{n=1}^N
\ln \mathcal{N}(\mathbf{x}_n | \boldsymbol{\mu}_k, \boldsymbol{\Lambda}_k^{-1})^{s_{n,k}}
\right]
+ \ln q(\boldsymbol{\mu}_k | \boldsymbol{\Lambda}_k)
+ \ln q(\boldsymbol{\Lambda}_k)
- \ln q(\boldsymbol{\mu}_k | \boldsymbol{\Lambda}_k)
+ \mathrm{const.}
\\
&= \sum_{n=1}^N
\mathbb{E}_{q(\mathbf{s}_n)} [s_{n,k}]
\ln \mathcal{N}(\mathbf{x}_n | \boldsymbol{\mu}_k, \boldsymbol{\Lambda}_k^{-1})
+ \ln \mathcal{N}(\boldsymbol{\mu}_k | \mathbf{m}, (\beta \boldsymbol{\Lambda}_k)^{-1})
+ \ln \mathcal{W}(\boldsymbol{\Lambda}_k | \nu, \mathbf{W})
- \mathcal{N}(\boldsymbol{\mu}_k | \hat{\mathbf{m}}_k, (\hat{\beta}_k \boldsymbol{\Lambda}_k)^{-1})
+ \mathrm{const.}
\\
&= \sum_{n=1}^N
- \frac{1}{2}
\mathbb{E}_{q(\mathbf{s}_n)} [s_{n,k}] \left\{
(\mathbf{x}_n - \boldsymbol{\mu}_k)^{\top}
\boldsymbol{\Lambda}_k
(\mathbf{x}_n - \boldsymbol{\mu}_k)
+ \ln |\boldsymbol{\Lambda}_k^{-1}|
+ D \ln 2 \pi
\right\} \\
&\qquad
- \frac{1}{2} \Bigl\{
(\boldsymbol{\mu}_k - \mathbf{m})^{\top}
\beta \boldsymbol{\Lambda}_k
(\boldsymbol{\mu}_k - \mathbf{m})
+ \ln |\beta \boldsymbol{\Lambda}_k^{-1}|
+ D \ln 2 \pi
\Bigr\} \\
&\qquad
+ \frac{\nu - D - 1}{2}
\ln |\boldsymbol{\Lambda}_k|
- \frac{1}{2}
\mathrm{Tr}(\mathbf{W}^{-1} \boldsymbol{\Lambda}_k)
+ \ln C_{\mathcal{W}}(\nu, \mathbf{W}) \\
&\qquad
+ \frac{1}{2} \Bigl\{
(\boldsymbol{\mu}_k - \hat{\mathbf{m}}_k)^{\top}
\hat{\beta}_k \boldsymbol{\Lambda}_k
(\boldsymbol{\mu}_k - \hat{\mathbf{m}}_k)
+ \ln |\hat{\beta}_k \boldsymbol{\Lambda}_k^{-1}|
+ D \ln 2 \pi
\Bigr\}
+ \mathrm{const.}
\end{aligned}
$$
となる。$\ln q(\boldsymbol{\mu}_k | \boldsymbol{\Lambda}_k)$は左辺から移項したものである。さらに、括弧を展開すると
$$
\begin{align}
\ln q(\boldsymbol{\Lambda}_k)
&= \sum_{n=1}^N
- \frac{1}{2}
\mathbb{E}_{q(\mathbf{s}_n)} [s_{n,k}] \Bigl\{
\mathbf{x}_n^{\top} \boldsymbol{\Lambda}_k \mathbf{x}_n
- 2 \boldsymbol{\mu}_k^{\top} \boldsymbol{\Lambda}_k \mathbf{x}_n
+ \boldsymbol{\mu}_k^{\top} \boldsymbol{\Lambda}_k \boldsymbol{\mu}_k
- \ln |\boldsymbol{\Lambda}_k|
\Bigr\} \\
&\qquad
- \frac{1}{2} \Bigl\{
\boldsymbol{\mu}_k^{\top} \beta \boldsymbol{\Lambda}_k \boldsymbol{\mu}_k
- 2 \boldsymbol{\mu}_k^{\top} \beta \boldsymbol{\Lambda}_k \mathbf{m}
+ \mathbf{m}^{\top} \beta \boldsymbol{\Lambda}_k \mathbf{m}
- D \ln \beta
- \ln |\boldsymbol{\Lambda}_k|
\Bigr\} \\
&\qquad
+ \frac{\nu - D - 1}{2}
\ln |\boldsymbol{\Lambda}_k|
- \frac{1}{2}
\mathrm{Tr}(\mathbf{W}^{-1} \boldsymbol{\Lambda}_k) \\
&\qquad
+ \frac{1}{2} \Biggl\{
\boldsymbol{\mu}_k^{\top} \left(
\sum_{n=1}^N \mathbb{E}_{q(\mathbf{s}_n)} [s_{n,k}]
+ \beta
\right)
\boldsymbol{\Lambda}_k \boldsymbol{\mu}_k
- 2 \boldsymbol{\mu}_k \boldsymbol{\Lambda}_k \left(
\sum_{n=1}^N
\mathbb{E}_{q(\mathbf{s}_n)} [s_{n,k}]
\mathbf{x}_n
+ \beta \mathbf{m}
\right)
+ \hat{\mathbf{m}}_k^{\top} \hat{\beta}_k \boldsymbol{\Lambda}_k \hat{\mathbf{m}}_k
\Biggr. \\
&\qquad \Biggl.
- D \ln \hat{\beta}_k
- \ln |\boldsymbol{\Lambda}_k|
\Biggr\}
+ \mathrm{const.}
\\
&= - \frac{1}{2} \left\{
\sum_{n=1}^N
\mathbb{E}_{q(\mathbf{s}_n)} [s_{n,k}]
\mathbf{x}_n^{\top} \boldsymbol{\Lambda}_k \mathbf{x}_n
+ \mathbf{m}^{\top} \beta \boldsymbol{\Lambda}_k \mathbf{m}
- \hat{\mathbf{m}}_k^{\top} \hat{\beta}_k \boldsymbol{\Lambda}_k \hat{\mathbf{m}}_k
\right\}
+ \frac{\sum_{n=1}^N \mathbb{E}_{q(\mathbf{s}_n)} [s_{n,k}]}{2}
\ln |\boldsymbol{\Lambda}_k| \\
&\qquad
+ \frac{\nu - D - 1}{2}
\ln |\boldsymbol{\Lambda}_k|
- \frac{1}{2}
\mathrm{Tr}(\mathbf{W}^{-1} \boldsymbol{\Lambda}_k)
+ \mathrm{const.}
\\
&= - \frac{1}{2} \left\{
\mathrm{Tr} \left(
\sum_{n=1}^N
\mathbb{E}_{q(\mathbf{s}_n)} [s_{n,k}]
\mathbf{x}_n \mathbf{x}_n^{\top} \boldsymbol{\Lambda}_k
\right)
+ \mathrm{Tr}(
\beta \mathbf{m} \mathbf{m}^{\top} \boldsymbol{\Lambda}_k
)
- \mathrm{Tr}(
\hat{\beta}_k \hat{\mathbf{m}}_k \hat{\mathbf{m}}_k^{\top} \boldsymbol{\Lambda}_k
)
\right\} \\
&\qquad
+ \frac{
\sum_{n=1}^N \mathbb{E}_{q(\mathbf{s}_n)} [s_{n,k}]
+ \nu - D - 1
}{
2
}
\ln |\boldsymbol{\Lambda}_k|
- \frac{1}{2}
\mathrm{Tr}(\mathbf{W}^{-1} \boldsymbol{\Lambda}_k)
+ \mathrm{const.}
\\
&= \frac{
\sum_{n=1}^N \mathbb{E}_{q(\mathbf{s}_n)} [s_{n,k}]
+ \nu - D - 1
}{
2
}
\ln |\boldsymbol{\Lambda}_k| \\
&\qquad
- \frac{1}{2}
\mathrm{Tr} \left\{
\left(
\sum_{n=1}^N
\mathbb{E}_{q(\mathbf{s}_n)} [s_{n,k}]
\mathbf{x}_n \mathbf{x}_n^{\top}
+ \beta \mathbf{m} \mathbf{m}^{\top}
- \hat{\beta}_k \hat{\mathbf{m}}_k \hat{\mathbf{m}}^{\top}
+ \mathbf{W}^{-1}
\right)
\boldsymbol{\Lambda}_k
\right\}
+ \mathrm{const.}
\tag{4.116}
\end{align}
$$
【途中式の途中式】
- 行列式の性質$|\mathbf{A}^{-1}| = |\mathbf{A}|^{-1}$、$|c \mathbf{A}| = c^D |\mathbf{A}|$より、変形する。また、式(4.114)を一部の項に代入する。
- 式を整理する。
- 「3.4.3:多次元ガウス分布の学習と予測:平均・精度が未知の場合」で確認した$\mathbf{x}^{\top} \boldsymbol{\Lambda} \mathbf{x} = \mathrm{Tr}(\mathbf{x} \mathbf{x}^{\top} \boldsymbol{\Lambda})$の関係を用いて、それぞれ項を変形する。
- トレースの性質$\mathrm{Tr}(\mathbf{A} + \mathbf{B}) = \mathrm{Tr}(\mathbf{A}) + \mathrm{Tr}(\mathbf{B})$より、項をまとめる。
となる。適宜$\boldsymbol{\Lambda}_k$に影響しない項を$\mathrm{const.}$にまとめている。
式(4.116)について
$$
\begin{aligned}
\hat{\mathbf{W}}_k^{-1}
&= \sum_{n=1}^N
\mathbb{E}_{q(\mathbf{s}_n)} [s_{n,k}]
\mathbf{x}_n \mathbf{x}_n^{\top}
+ \beta \mathbf{m} \mathbf{m}^{\top}
- \hat{\beta}_k \hat{\mathbf{m}}_k \hat{\mathbf{m}}^{\top}
+ \mathbf{W}^{-1}
\\
\hat{\nu}_k
&= \sum_{n=1}^N \mathbb{E}_{q(\mathbf{s}_n)} [s_{n,k}]
+ \nu
\end{aligned}
\tag{4.118}
$$
とおき
$$
\ln q(\boldsymbol{\Lambda}_k)
= \frac{\hat{\nu}_k - D - 1}{2}
\ln |\boldsymbol{\Lambda}_k|
- \frac{1}{2}
\mathrm{Tr}(\hat{\mathbf{W}}_k^{-1} \boldsymbol{\Lambda}_k)
+ \ln C_{\mathcal{W}}(\hat{\nu}_k, \hat{\mathbf{W}}_k)
$$
さらに$\ln$を外し、$\mathrm{const.}$を正規化項に置き換える(正規化する)と
$$
q(\boldsymbol{\Lambda}_k)
= C_{\mathcal{W}}(\hat{\nu}_k, \hat{\mathbf{W}}_k)
|\boldsymbol{\Lambda}_k|^{\frac{\hat{\nu}_k - D - 1}{2}}
\exp \left\{
- \frac{1}{2}
\mathrm{Tr}(\hat{\mathbf{W}}_k^{-1} \boldsymbol{\Lambda}_k)
\right\}
= \mathcal{W}(\boldsymbol{\Lambda}_k | \hat{\nu}_k, \hat{\mathbf{W}}_k)
\tag{4.117}
$$
$\boldsymbol{\Lambda}_k$の近似事後分布は、パラメータ$\hat{\mathbf{W}}_k$を持つ自由度$\hat{\nu}_k$のウィシャート分布になることが分かる。
・混合比率の近似事後分布
続いて、$\boldsymbol{\mu},\ \boldsymbol{\Lambda},\ \boldsymbol{\pi}$の近似事後分布(4.110)を$\boldsymbol{\pi}$に関して整理すると、「4.3.3:ポアソン混合モデルにおける推論:変分推論」の式(4.56)と同じ式になるので、$\boldsymbol{\pi}$の近似事後分布は4.3.3項で導出した
$$
q(\boldsymbol{\pi})
= C_D(\boldsymbol{\alpha})
\prod_{k=1}^K
\pi_k^{\hat{\alpha}_k-1}
= \mathrm{Dir}(\boldsymbol{\pi} | \hat{\boldsymbol{\alpha}})
\tag{4.57}
$$
パラメータ$\hat{\boldsymbol{\alpha}} = (\hat{\alpha}_1, \hat{\alpha}_2, \cdots, \hat{\alpha}_K)$を持つディリクレ分布になることが分かる。
また、超パラメータ$\hat{\alpha}_k$の計算式(更新式)は
$$
\begin{align}
\hat{\alpha}_k
&= \sum_{n=1}^N
\mathbb{E}_{q(\mathbf{s}_n)} [s_{n,k}]
+ \alpha_k
\tag{4.58}\\
\mathbb{E}_{q(\mathbf{s}_n)} [s_{n,k}]
&= \eta_{n,k}
\tag{4.59}
\end{align}
$$
である。
・潜在変数の近似事後分布のパラメータの計算
各分布が明らかになったので、最後に$\eta_{n,k}$の計算式(更新式)(4.109)の各項について確認する。
$q(\boldsymbol{\Lambda}_k) = \mathcal{W}(\boldsymbol{\Lambda}_k | \hat{\nu}_k, \hat{\mathbf{W}}_k)$なので、ウィシャート分布の期待値(2.89)、ウィシャート分布の対数の期待値(2.90)より
$$
\begin{align}
\mathbb{E}_{q(\boldsymbol{\Lambda}_k)} [
\boldsymbol{\Lambda}_k
]
&= \hat{\nu}
\hat{\mathbf{W}}_k
\tag{4.119}\\
\mathbb{E}_{q(\boldsymbol{\Lambda}_k)} [
\ln |\boldsymbol{\Lambda}_k|
]
&= \sum_{d=1}^D
\psi \Bigl(
\frac{\hat{\nu}_k + 1 - d}{2}
\Bigr)
+ D \ln 2
+ \ln |\hat{\mathbf{W}}_k|
\tag{4.120}
\end{align}
$$
で計算できる。
さらに、$q(\boldsymbol{\mu}_k | \boldsymbol{\Lambda}_k) = \mathcal{N}(\boldsymbol{\mu}_k | \hat{\mathbf{m}}_k, (\hat{\beta}_k \boldsymbol{\Lambda}_k)^{-1})$なので、多次元ガウス分布の期待値(2.76)を用いて、$\mathbb{E}_{q(\boldsymbol{\mu}_k, \boldsymbol{\Lambda}_k)} [ \boldsymbol{\Lambda}_k \boldsymbol{\mu}_k]$を計算する。期待値を積分計算の式に書き直して、$q(\boldsymbol{\mu}_k, \boldsymbol{\Lambda}_k)$を分解する。
$$
\begin{aligned}
\mathbb{E}_{q(\boldsymbol{\mu}_k, \boldsymbol{\Lambda}_k)} [
\boldsymbol{\Lambda}_k \boldsymbol{\mu}_k
]
&= \iint
q(\boldsymbol{\mu}_k, \boldsymbol{\Lambda}_k)
\boldsymbol{\Lambda}_k \boldsymbol{\mu}_k
d\boldsymbol{\mu}_k d\boldsymbol{\Lambda}_k
\\
&= \int
q(\boldsymbol{\Lambda}_k)
\boldsymbol{\Lambda}_k
\int
q(\boldsymbol{\mu}_k | \boldsymbol{\Lambda}_k)
\boldsymbol{\mu}_k
d\boldsymbol{\mu}_k
d\boldsymbol{\Lambda}_k
\end{aligned}
$$
$q(\boldsymbol{\mu}_k | \boldsymbol{\Lambda}_k)$は$\boldsymbol{\Lambda}_k$を含むので、$\boldsymbol{\Lambda}_k$の積分の中で$\boldsymbol{\mu}_k$の積分をする式になる。$\boldsymbol{\mu}_k$の期待値(積分)計算を行う。
$$
\begin{aligned}
\mathbb{E}_{q(\boldsymbol{\mu}_k, \boldsymbol{\Lambda}_k)} [
\boldsymbol{\Lambda}_k \boldsymbol{\mu}_k
]
&= \int
q(\boldsymbol{\Lambda}_k)
\boldsymbol{\Lambda}_k
\mathbb{E}_{q(\boldsymbol{\mu}_k | \boldsymbol{\Lambda}_k)} [
\boldsymbol{\mu}_k
]
d\boldsymbol{\Lambda}_k
\\
&= \int
q(\boldsymbol{\Lambda}_k)
\boldsymbol{\Lambda}_k
\hat{\mathbf{m}}_k
d\boldsymbol{\Lambda}_k
\end{aligned}
$$
$\boldsymbol{\mu}_k$の期待値が$\boldsymbol{\Lambda}_k$と無関係になったので、$\boldsymbol{\mu}_k$の積分の外に出し、$\boldsymbol{\Lambda}_k$の期待値計算を行うと
$$
\begin{align}
\mathbb{E}_{q(\boldsymbol{\mu}_k, \boldsymbol{\Lambda}_k)} [
\boldsymbol{\Lambda}_k \boldsymbol{\mu}_k
]
&= \int
q(\boldsymbol{\Lambda}_k)
\boldsymbol{\Lambda}_k
d\boldsymbol{\Lambda}_k
\hat{\mathbf{m}}_k
\\
&= \mathbb{E}_{q(\boldsymbol{\Lambda}_k)} [
\boldsymbol{\Lambda}_k
]
\hat{\mathbf{m}}_k
\\
&= \hat{\nu}
\hat{\mathbf{W}}_k
\hat{\mathbf{m}}_k
\tag{4.121}
\end{align}
$$
で計算できることが分かる。
また、$\mathbb{E}_{q(\boldsymbol{\mu}_k, \boldsymbol{\Lambda}_k)} [\boldsymbol{\mu}_k^{\top} \boldsymbol{\Lambda}_k \boldsymbol{\mu}_k]$を積分の式に書き直して、3.4.3項で確認した$\mathbf{x}^{\top} \boldsymbol{\Lambda} \mathbf{x} = \mathrm{Tr}(\mathbf{x} \mathbf{x}^{\top} \boldsymbol{\Lambda})$の関係を用いて変形する。
$$
\begin{aligned}
\mathbb{E}_{q(\boldsymbol{\mu}_k, \boldsymbol{\Lambda}_k)} [
\boldsymbol{\mu}_k^{\top} \boldsymbol{\Lambda}_k \boldsymbol{\mu}_k
]
&= \iint
q(\boldsymbol{\mu}_k, \boldsymbol{\Lambda}_k)
\boldsymbol{\mu}_k^{\top} \boldsymbol{\Lambda}_k \boldsymbol{\mu}_k
d\boldsymbol{\mu}_k d\boldsymbol{\Lambda}_k
\\
&= \mathrm{Tr} \left(
\iint
q(\boldsymbol{\mu}_k, \boldsymbol{\Lambda}_k)
\boldsymbol{\mu}_k \boldsymbol{\mu}_k^{\top} \boldsymbol{\Lambda}_k
d\boldsymbol{\mu}_k d\boldsymbol{\Lambda}_k
\right)
\end{aligned}
$$
($\mathrm{Tr}(\cdot)$と$\int$って、こんな風に出し入れしていいものなの?)$q(\boldsymbol{\mu}_k, \boldsymbol{\Lambda}_k)$を分解して、多次元ガウス分布の2乗の期待値(2.77)より、$\boldsymbol{\mu}_k$に関する期待値を計算する。
$$
\begin{aligned}
\mathbb{E}_{q(\boldsymbol{\mu}_k, \boldsymbol{\Lambda}_k)} [
\boldsymbol{\mu}_k^{\top} \boldsymbol{\Lambda}_k \boldsymbol{\mu}_k
]
&= \mathrm{Tr} \left(
\iint
q(\boldsymbol{\mu}_k | \boldsymbol{\Lambda}_k)
\boldsymbol{\mu}_k \boldsymbol{\mu}_k^{\top}
d\boldsymbol{\mu}_k
q(\boldsymbol{\Lambda}_k)
\boldsymbol{\Lambda}_k
d\boldsymbol{\Lambda}_k
\right)
\\
&= \mathrm{Tr} \left(
\int
\mathbb{E}_{q(\boldsymbol{\mu}_k | \boldsymbol{\Lambda}_k)} [
\boldsymbol{\mu}_k \boldsymbol{\mu}_k^{\top}
]
q(\boldsymbol{\Lambda}_k)
\boldsymbol{\Lambda}_k
d\boldsymbol{\Lambda}_k
\right)
\\
&= \mathrm{Tr} \left(
\int
\Bigl\{
\hat{\mathbf{m}}_k \hat{\mathbf{m}}_k^{\top}
+ (\hat{\beta}_k \boldsymbol{\Lambda}_k)^{-1}
\Bigr\}
q(\boldsymbol{\Lambda}_k)
\boldsymbol{\Lambda}_k
d\boldsymbol{\Lambda}_k
\right)
\end{aligned}
$$
波括弧を展開して、$\boldsymbol{\Lambda}_k$に関する期待値を計算する。このとき、逆行列の性質$(\mathbf{A} \mathbf{B})^{-1} = \mathbf{B}^{-1} \mathbf{A}^{-1}$、$\mathbf{A} \mathbf{A}^{-1} = \mathbf{I}_D$を用いる。ただし、$\hat{\beta}_k$はスカラである。
$$
\begin{aligned}
\mathbb{E}_{q(\boldsymbol{\mu}_k, \boldsymbol{\Lambda}_k)} [
\boldsymbol{\mu}_k^{\top} \boldsymbol{\Lambda}_k \boldsymbol{\mu}_k
]
&= \mathrm{Tr} \left(
\hat{\mathbf{m}}_k \hat{\mathbf{m}}_k^{\top}
\int
q(\boldsymbol{\Lambda}_k)
\boldsymbol{\Lambda}_k
d\boldsymbol{\Lambda}_k
+ \hat{\beta}_k^{-1}
\int
q(\boldsymbol{\Lambda}_k)
\boldsymbol{\Lambda}_k^{-1}
\boldsymbol{\Lambda}_k
d\boldsymbol{\Lambda}_k
\right)
\\
&= \mathrm{Tr} \left(
\hat{\mathbf{m}}_k \hat{\mathbf{m}}_k^{\top}
\mathbb{E}_{q(\boldsymbol{\Lambda}_k)} [
\boldsymbol{\Lambda}_k
]
+ \hat{\beta}_k^{-1}
\mathbf{I}_D
\int
q(\boldsymbol{\Lambda}_k)
d\boldsymbol{\Lambda}_k
\right)
\\
&= \mathrm{Tr} \Bigl(
\hat{\mathbf{m}}_k \hat{\mathbf{m}}_k^{\top}
\hat{\nu} \hat{\mathbf{W}}_k
+ \hat{\beta}_k^{-1}
\mathbf{I}_D
\Bigr)
\end{aligned}
$$
トレースの性質$\mathrm{Tr}(\mathbf{A} \mathbf{B}) = \mathrm{Tr}(\mathbf{A}) + \mathrm{Tr}(\mathbf{B})$、$\mathrm{Tr}(c \mathbf{A}) = c \mathrm{Tr}(\mathbf{A})$より、項を分割して、トレースを計算すると
$$
\begin{align}
\mathbb{E}_{q(\boldsymbol{\mu}_k, \boldsymbol{\Lambda}_k)} [
\boldsymbol{\mu}_k^{\top} \boldsymbol{\Lambda}_k \boldsymbol{\mu}_k
]
&= \hat{\nu}
\mathrm{Tr} \Bigl(
\hat{\mathbf{m}}_k \hat{\mathbf{m}}_k^{\top}
\hat{\mathbf{W}}_k
\Bigr)
+ \hat{\beta}_k^{-1}
\mathrm{Tr} \Bigl(
\mathbf{I}_D
\Bigr)
\\
&= \hat{\nu}
\hat{\mathbf{m}}_k^{\top}
\hat{\mathbf{W}}_k
\hat{\mathbf{m}}_k
+ \frac{D}{\hat{\beta}_k}
\tag{4.122}
\end{align}
$$
となる。
最後に、$q(\boldsymbol{\pi}) = \mathrm{Dir}(\boldsymbol{\pi} | \hat{\boldsymbol{\alpha}})$なので、ディリクレ分布の期待値(2.52)より
$$
\mathbb{E}_{q(\boldsymbol{\pi})} [
\ln \pi_k
]
= \psi(\hat{\alpha}_k)
- \psi \left(
\sum_{k=1}^K \hat{\alpha}_k
\right)
\tag{4.62}
$$
で計算できる。
参考文献
- 須山敦志『ベイズ推論による機械学習入門』(機械学習スタートアップシリーズ)杉山将監修,講談社,2017年.
おわりに
ブログ3年目初日の記事です!まだまだ楽しく頑張ります。
と気持ちよくいきたいところですが、1つ分かりませんでした、、、また後日再挑戦します。
そして2020年12月1日は、Juice=Juiceの宮本佳林さんの22歳のお誕生日です!おめでとうございます!
卒業までもう僅か、、、でもソロデビュー後も楽しみ。あぁソロアルバムも待ち遠しい。でもJuiceのホールツアー観たかった、本当に、まなかりん。
余談ですが、この本の攻略記事でグラフの色に紫を多用しているのは、この方のメンバーカラーだからです。この本を読み始めた頃に卒業を発表されて、ショックで紫色に染まっていきました。
【次節の内容】
www.anarchive-beta.com
上の件、解けました!