はじめに
『ベイズ推論による機械学習入門』の学習時のノートです。基本的な内容は「数式の行間を読んでみた」とそれを「RとPythonで組んでみた」になります。「数式」と「プログラム」から理解するのが目標です。
この記事は、4.3.3項の内容です。「観測モデルをポアソン混合モデル」、「事前分布をガンマ分布」とする混合モデルを変分推論を用いて推論します。
省略してある内容等ありますので、本とあわせて読んでください。初学者な自分が理解できるレベルまで落として書き下していますので、分かる人にはかなりくどくなっています。同じような立場の人のお役に立てれば幸いです。
【実装編】
www.anarchive-beta.com
www.anarchive-beta.com
【他の節一覧】
www.anarchive-beta.com
【この節の内容】
4.3.3 変分推論
変分推論を用いて、ポアソン混合モデルの事後分布$p(\mathbf{S}, \boldsymbol{\lambda}, \boldsymbol{\pi} | \mathbf{X})$の近似分布$q(\mathbf{S}, \boldsymbol{\lambda}, \boldsymbol{\pi})$を導出する。
観測データ$\mathbf{X}$が与えられた下での、潜在変数$\mathbf{S}$、観測モデルのパラメータ$\boldsymbol{\lambda}$、混合比率パラメータ$\boldsymbol{\pi}$の事後分布$p(\mathbf{S}, \boldsymbol{\lambda}, \boldsymbol{\pi} | \mathbf{X})$に対して、分解近似の仮定をおいた
$$
p(\mathbf{S}, \boldsymbol{\lambda}, \boldsymbol{\pi} | \mathbf{X})
\approx
q(\mathbf{S}, \boldsymbol{\lambda}, \boldsymbol{\pi})
= q(\mathbf{S})
q(\boldsymbol{\lambda})
q(\boldsymbol{\pi})
\tag{4.46}
$$
で近似する。$q(\mathbf{S}, \boldsymbol{\lambda}, \boldsymbol{\pi})$を近似事後分布、または変分事後分布と呼ぶ。
・潜在変数の近似事後分布の導出
始めに、潜在変数$\mathbf{S}$の近似事後分布$q(\mathbf{S})$を求めていく。
$\mathbf{S}$の近似事後分布は、事後分布$p(\mathbf{S}, \boldsymbol{\lambda}, \boldsymbol{\pi} | \mathbf{X})$と$q(\boldsymbol{\lambda}, \boldsymbol{\pi})$を固定した近似分布$q(\mathbf{S}, \boldsymbol{\lambda}, \boldsymbol{\pi})$に対して、4.2.2項「変分推論」で求めた変分推論の公式(4.25)を用いて
$$
\begin{align}
\ln q(\mathbf{S})
&= \mathbb{E}_{q(\boldsymbol{\lambda}, \boldsymbol{\pi})} \Bigl[
\ln p(\mathbf{S}, \boldsymbol{\lambda}, \boldsymbol{\pi} | \mathbf{X})
\Bigr]
+ \mathrm{const.}
\\
&= \mathbb{E}_{q(\boldsymbol{\lambda}, \boldsymbol{\pi})} \left[
\ln \frac{
p(\mathbf{X}, \mathbf{S}, \boldsymbol{\lambda}, \boldsymbol{\pi})
}{
p(\mathbf{X})
}
\right]
+ \mathrm{const.}
\\
&= \mathbb{E}_{q(\boldsymbol{\lambda}, \boldsymbol{\pi})} \Bigl[
\ln p(\mathbf{X} | \mathbf{S}, \boldsymbol{\lambda})
+ \ln p(\mathbf{S} | \boldsymbol{\pi})
+ \ln p(\boldsymbol{\lambda})
+ \ln p(\boldsymbol{\pi})
- \ln p(\mathbf{X})
\Bigr]
+ \mathrm{const.}
\\
&= \mathbb{E}_{q(\boldsymbol{\lambda}, \boldsymbol{\pi})} \Bigl[
\ln p(\mathbf{X} | \mathbf{S}, \boldsymbol{\lambda})
\Bigr]
+ \mathbb{E}_{q(\boldsymbol{\lambda}, \boldsymbol{\pi})} \Bigl[
\ln p(\mathbf{S} | \boldsymbol{\pi})
\Bigr]
+ \mathbb{E}_{q(\boldsymbol{\lambda}, \boldsymbol{\pi})} \Bigl[
\ln p(\boldsymbol{\lambda})
\Bigr]
+ \mathbb{E}_{q(\boldsymbol{\lambda}, \boldsymbol{\pi})} \Bigl[
\ln p(\boldsymbol{\pi})
\Bigr]
- \mathbb{E}_{q(\boldsymbol{\lambda}, \boldsymbol{\pi})} \Bigl[
\ln p(\mathbf{X})
\Bigr]
+ \mathrm{const.}
\\
&= \mathbb{E}_{q(\boldsymbol{\lambda})} \left[
\sum_{n=1}^N \ln p(\mathbf{x}_n | \mathbf{s}_n, \boldsymbol{\lambda})
\right]
+ \mathbb{E}_{q(\boldsymbol{\pi})} \left[
\sum_{n=1}^N \ln p(\mathbf{s}_n | \boldsymbol{\pi})
\right]
+ \mathrm{const.}
\\
&= \sum_{n=1}^N \Bigl\{
\mathbb{E}_{q(\boldsymbol{\lambda})} \Bigl[
\ln p(x_n | \mathbf{s}_n, \boldsymbol{\lambda})
\Bigr]
+ \mathbb{E}_{q(\boldsymbol{\pi})} \Bigl[
\ln p(\mathbf{s}_n | \boldsymbol{\pi})
\Bigr]
\Bigr\}
+ \mathrm{const.}
\tag{4.47}\\
&= \sum_{n=1}^N \left\{
\mathbb{E}_{q(\boldsymbol{\lambda})} \left[
\sum_{k=1}^K
\ln \mathrm{Poi}(x_n | \lambda_k)^{s_{n,k}}
\right]
+ \mathbb{E}_{q(\boldsymbol{\pi})} \Bigl[
\ln \mathrm{Cat}(\mathbf{s}_n | \boldsymbol{\pi})
\Bigr]
\right\}
+ \mathrm{const.}
\end{align}
$$
で求められる。4.3.1項「ポアソン混合モデル」で確認した各変数の生成過程(依存関係)に従い項を分解している。また、適宜$\mathbf{S}$に影響しない項を$\mathrm{const.}$にまとめて比例関係に注目する。省略した部分については、最後に正規化することで対応できる。
連続値の期待値の定義$\mathbb{E}_{q(\boldsymbol{\lambda})}[\boldsymbol{\lambda}] = \int q(\boldsymbol{\lambda}) \boldsymbol{\lambda} d\boldsymbol{\lambda}$より、$\boldsymbol{\lambda}$に影響しない項は$\mathbb{E}_{q(\boldsymbol{\lambda})}[\cdot]$の外に出せる。また、連続値の確率分布の定義より$\int q(\boldsymbol{\lambda}) d\boldsymbol{\lambda} = 1$なので、期待値の括弧内($\int$の中)の項がなくなると1となり消える。$\boldsymbol{\pi}$についても同様である。
$n$番目の潜在変数(ある1つのデータのクラスタ)$\mathbf{s}_n$の近似事後分布の具体的な形状を明らかにしていく。前の項は
$$
\begin{align}
\mathbb{E}_{q(\boldsymbol{\lambda})} \Bigl[
\ln p(x_n | \mathbf{s}_n, \boldsymbol{\lambda})
\Bigr]
&= \mathbb{E}_{q(\lambda_k)} \left[
\sum_{k=1}^K
s_{n,k} \ln \mathrm{Poi}(x_n | \lambda_k)
\right]
\\
&= \sum_{k=1}^K
s_{n,k}
\mathbb{E}_{q(\lambda_k)} \left[
\ln \frac{\lambda_k^{x_n}}{x_n!}
\exp(- \lambda_k)
\right]
\\
&= \sum_{k=1}^K
s_{n,k}
\mathbb{E}_{q(\lambda_k)} \Bigl[
x_n \ln \lambda_k
- \ln x_n!
- \lambda_k
\Bigr]
\\
&= \sum_{k=1}^K
s_{n,k} \Bigl(
x_n
\mathbb{E}_{q(\lambda_k)} [
\ln \lambda_k
]
- \mathbb{E}_{q(\lambda_k)} [
\lambda_k
]
\Bigr)
+ \mathrm{const.}
\tag{4.48}
\end{align}
$$
となる。$\sum_{k=1}^K s_{n,k} = 1$なので、$\sum_{k=1}^K - s_{n,k} \ln x_n! = - \ln x_n!$となり$\mathbf{s}_n$の影響を受けなくなるので$\mathrm{const.}$に含める。
後の項は
$$
\begin{align}
\mathbb{E}_{q(\boldsymbol{\pi})} \Bigl[
\ln p(\mathbf{s}_n | \boldsymbol{\pi})
\Bigr]
&= \mathbb{E}_{q(\boldsymbol{\pi})} \Bigl[
\ln \mathrm{Cat}(\mathbf{s}_n | \boldsymbol{\pi})
\Bigr]
\\
&= \mathbb{E}_{q(\boldsymbol{\pi})} \left[
\ln \prod_{k=1}^K
\pi_k^{s_{n,k}}
\right]
\\
&= \mathbb{E}_{q(\boldsymbol{\pi})} \left[
\sum_{k=1}^K
s_{n,k} \ln \pi_k
\right]
\\
&= \sum_{k=1}^K
s_{n,k}
\mathbb{E}_{q(\boldsymbol{\pi})} [
\ln \pi_k
]
\tag{4.49}
\end{align}
$$
となる。
よって、式(4.48)と式(4.49)を$n$番目のデータに関する項を取り出した式(4.47)に代入すると
$$
\begin{align}
\ln q(\mathbf{s}_n)
&= \mathbb{E}_{q(\boldsymbol{\lambda})} \Bigl[
\ln p(x_n | \mathbf{s}_n, \boldsymbol{\lambda})
\Bigr]
+ \mathbb{E}_{q(\boldsymbol{\pi})} \Bigl[
\ln p(\mathbf{s}_n | \boldsymbol{\pi})
\Bigr]
+ \mathrm{const.}
\tag{4.47'}\\
&= \sum_{k=1}^K
s_{n,k} \Bigl(
x_n
\mathbb{E}_{q(\lambda_k)} [
\ln \lambda_k
]
- \mathbb{E}_{q(\lambda_k)} [
\lambda_k
]
\Bigr)
+ \sum_{k=1}^K
s_{n,k}
\mathbb{E}_{q(\boldsymbol{\pi})} [
\ln \pi_k
]
+ \mathrm{const.}
\\
&= \sum_{k=1}^K
s_{n,k} \Bigl(
x_n
\mathbb{E}_{q(\lambda_k)} [
\ln \lambda_k
]
- \mathbb{E}_{q(\lambda_k)} [
\lambda_k
]
+ \mathbb{E}_{q(\boldsymbol{\pi})} [
\ln \pi_k
]
\Bigr)
+ \mathrm{const.}
\end{align}
$$
となる。
この式について
$$
\eta_{n,k}
\propto
\exp \Bigl\{
x_n
\mathbb{E}_{q(\lambda_k)} [
\ln \lambda_k
]
- \mathbb{E}_{q(\lambda_k)} [
\lambda_k
]
+ \mathbb{E}_{q(\boldsymbol{\pi})} [
\ln \pi_k
]
\Bigr\}
\tag{4.51}
$$
とおき
$$
\ln q(\mathbf{s}_n)
= \sum_{k=1}^K
s_{n,k}
\ln \eta_{n,k}
+ \mathrm{const.}
$$
さらに$\ln$を外し、$\sum_{k=1}^K \eta_{n,k} = 1$となるように正規化する($\mathrm{const.}$を正規化項に置き換える)と
$$
q(\mathbf{s}_n)
= \prod_{k=1}^K
\eta_{n,k}^{s_{n,k}}
= \mathrm{Cat}(\mathbf{s}_n | \boldsymbol{\eta}_n)
\tag{4.50}
$$
$\mathbf{s}_n$の近似事後分布は、パラメータ$\boldsymbol{\eta}_n = (\eta_{n,1}, \eta_{n,2}, \cdots, \eta_{n,K})$を持つカテゴリ分布になることが分かる。
$\eta_{n,k}$の計算式(更新式)(4.51)については、$q(\lambda_k),\ q(\boldsymbol{\pi})$の形状を明らかにしてから確認する。
・パラメータの近似事後分布の導出
次に、パラメータ$\boldsymbol{\lambda},\ \boldsymbol{\pi}$の(同時)近似事後分布$q(\boldsymbol{\lambda}, \boldsymbol{\pi})$から、各パラメータの近似事後分布$q(\boldsymbol{\lambda}),\ q(\boldsymbol{\pi})$を求めていく。
$\boldsymbol{\lambda},\ \boldsymbol{\pi}$の近似事後分布は、事後分布$p(\mathbf{S}, \boldsymbol{\lambda}, \boldsymbol{\pi} | \mathbf{X})$と$q(\mathbf{S})$を固定した近似分布$q(\mathbf{S}, \boldsymbol{\lambda}, \boldsymbol{\pi})$に対して、変分推論の公式(4.25)を用いて
$$
\begin{align}
\ln q(\boldsymbol{\lambda}, \boldsymbol{\pi})
&= \mathbb{E}_{q(\mathbf{S})} \Bigl[
\ln p(\mathbf{S}, \boldsymbol{\lambda}, \boldsymbol{\pi} | \mathbf{X})
\Bigr]
+ \mathrm{const.}
\\
&= \mathbb{E}_{q(\mathbf{S})} \left[
\ln \frac{
p(\mathbf{X}, \mathbf{S}, \boldsymbol{\lambda}, \boldsymbol{\pi})
}{
p(\mathbf{X})
}
\right]
+ \mathrm{const.}
\\
&= \mathbb{E}_{q(\mathbf{S})} \Bigl[
\ln p(\mathbf{X} | \mathbf{S}, \boldsymbol{\lambda})
+ \ln p(\boldsymbol{\lambda})
+ \ln p(\mathbf{S} | \boldsymbol{\pi})
+ \ln p(\boldsymbol{\pi})
- \ln p(\mathbf{X})
\Bigr]
+ \mathrm{const.}
\\
&= \mathbb{E}_{q(\mathbf{S})} \Bigl[
\ln p(\mathbf{X} | \mathbf{S}, \boldsymbol{\lambda})
\Bigr]
+ \mathbb{E}_{q(\mathbf{S})} \Bigl[
\ln p(\boldsymbol{\lambda})
\Bigr]
+ \mathbb{E}_{q(\mathbf{S})} \Bigl[
\ln p(\mathbf{S} | \boldsymbol{\pi})
\Bigr]
+ \mathbb{E}_{q(\mathbf{S})} \Bigl[
\ln p(\boldsymbol{\pi})
\Bigr]
- \mathbb{E}_{q(\mathbf{S})} \Bigl[
\ln p(\mathbf{X})
\Bigr]
+ \mathrm{const.}
\\
&= \mathbb{E}_{q(\mathbf{S})} \Bigl[
\ln p(\mathbf{X} | \mathbf{S}, \boldsymbol{\lambda})
\Bigr]
+ \ln p(\boldsymbol{\lambda})
+ \mathbb{E}_{q(\mathbf{S})} \Bigl[
\ln p(\mathbf{S} | \boldsymbol{\pi})
\Bigr]
+ \ln p(\boldsymbol{\pi})
+ \mathrm{const.}
\tag{4.52}\\
&= \mathbb{E}_{q(\mathbf{S})} \left[
\sum_{n=1}^N
\ln p(\mathbf{x}_n | \mathbf{s}_n, \boldsymbol{\lambda})
\right]
+ \sum_{k=1}^K
\ln p(\lambda_k)
+ \mathbb{E}_{q(\mathbf{S})} \left[
\sum_{n=1}^N
\ln p(\mathbf{s}_n | \boldsymbol{\pi})
\right]
+ \ln p(\boldsymbol{\pi})
+ \mathrm{const.}
\\
&= \sum_{n=1}^N
\mathbb{E}_{q(\mathbf{s}_n)} \left[
\sum_{k=1}^K
\ln \mathrm{Poi}(x_n | \lambda_k)^{s_{n,k}}
\right]
+ \sum_{k=1}^K
\ln \mathrm{Gam}(\lambda_k | a, b)
+ \sum_{n=1}^N
\mathbb{E}_{q(\mathbf{s}_n)} \Bigl[
\ln \mathrm{Cat}(\mathbf{s}_n | \boldsymbol{\pi})
\Bigr]
+ \ln \mathrm{Dir}(\boldsymbol{\pi} | \boldsymbol{\alpha})
+ \mathrm{const.}
\end{align}
$$
で求められる。こちらも生成過程に従い項を分解して、$\boldsymbol{\lambda},\ \boldsymbol{\pi}$に影響しない項を省く。$\mathbf{S}$と無関係な項は$\mathbb{E}_{q(\mathbf{S})} [\cdot]$の外に出せる。
また、左辺の(対数をとった同時)近似事後分布は
$$
\ln q(\boldsymbol{\lambda}, \boldsymbol{\pi})
= \ln q(\boldsymbol{\lambda})
+ \ln q(\boldsymbol{\pi})
$$
と分解できる。
この式を用いて、$\boldsymbol{\lambda},\ \boldsymbol{\pi}$それぞれの近似事後分布の具体的な形状を明らかにしていく。
・観測モデルのパラメータの近似事後分布
式(4.52)を$\boldsymbol{\lambda}$に関して整理する($\boldsymbol{\lambda}$に影響しない項を$\mathrm{const.}$にまとめる)と
$$
\begin{align}
\ln q(\boldsymbol{\lambda})
&= \mathbb{E}_{q(\mathbf{S})} \Bigl[
\ln p(\mathbf{X} | \mathbf{S}, \boldsymbol{\lambda})
\Bigr]
+ \ln p(\boldsymbol{\lambda})
- \ln q(\boldsymbol{\pi})
+ \mathrm{const.}
\\
&= \sum_{n=1}^N
\mathbb{E}_{q(\mathbf{s}_n)} \left[
\sum_{k=1}^K
s_{n,k} \ln \mathrm{Poi}(x_n | \lambda_k)
\right]
+ \sum_{k=1}^K
\ln \mathrm{Gam}(\lambda_k | a, b)
+ \mathrm{const.}
\\
&= \sum_{n=1}^N \sum_{k=1}^K
\mathbb{E}_{q(\mathbf{s}_n)} \left[
s_{n,k}
\ln \frac{\lambda_k^{x_n}}{x_n!}
\exp(- \lambda_k)
\right]
+ \sum_{k=1}^K
\ln C_G(a, b)
\lambda_k^{a-1}
\exp(- b \lambda_k)
+ \mathrm{const.}
\\
&= \sum_{k=1}^K \left\{
\sum_{n=1}^N
\mathbb{E}_{q(\mathbf{s}_n)} [s_{n,k}]
(x_n \ln \lambda_k - \ln x_n! - \lambda_k)
+ \ln C_G(a, b)
+ (a - 1) \ln \lambda_k
- b \lambda_k
\right\}
+ \mathrm{const.}
\\
&= \sum_{k=1}^K \left\{
\left(
\sum_{n=1}^N \mathbb{E}_{q(\mathbf{s}_n)} [s_{n,k}] x_n
+ a - 1
\right)
\ln \lambda_k
- \left(
\sum_{n=1}^N \mathbb{E}_{q(\mathbf{s}_n)} [s_{n,k}]
+ b
\right)
\lambda_k
\right\}
+ \mathrm{const.}
\tag{4.53}
\end{align}
$$
となる。$\ln q(\boldsymbol{\pi})$は左辺から移項したものである。
式(4.53)について
$$
\begin{aligned}
\hat{a}_k
&= \sum_{n=1}^N
\mathbb{E}_{q(\mathbf{s}_n)} [s_{n,k}]
x_n
+ a
\\
\hat{b}_k
&= \sum_{n=1}^N
\mathbb{E}_{q(\mathbf{s}_n)} [s_{n,k}]
+ b
\end{aligned}
\tag{4.55}
$$
とおき
$$
\ln q(\boldsymbol{\lambda})
= \sum_{k=1}^K \Bigl\{
(\hat{a}_k - 1)
\ln \lambda_k
- \hat{b}_k
\lambda_k
\Bigr\}
+ \mathrm{const.}
$$
さらに$\ln$を外し、$\mathrm{const.}$を正規化項に置き換える(正規化する)と
$$
q(\boldsymbol{\lambda})
= \prod_{k=1}^K
C_G(\hat{a}_k, \hat{b}_k)
\lambda_k^{\hat{a}_k-1}
\exp(- \hat{b}_k \lambda_k)
= \prod_{k=1}^K
\mathrm{Gam}(\lambda_k | \hat{a}_k, \hat{b}_k)
\tag{4.54}
$$
$\lambda_k$の近似事後分布は、パラメータ$\hat{a}_k,\ \hat{b}_k$を持つガンマ分布になることが分かる。
・混合比率の近似事後分布
同様に、式(4.52)を$\boldsymbol{\pi}$に関して整理する($\boldsymbol{\pi}$に影響しない項を$\mathrm{const.}$にまとめる)と
$$
\begin{align}
\ln q(\boldsymbol{\pi})
&= \mathbb{E}_{q(\mathbf{S})} \Bigl[
\ln p(\mathbf{S} | \boldsymbol{\pi})
\Bigr]
+ \ln p(\boldsymbol{\pi})
- \ln q(\boldsymbol{\lambda})
+ \mathrm{const.}
\\
&= \sum_{n=1}^N
\mathbb{E}_{q(\mathbf{s}_n)} \Bigl[
\ln \mathrm{Cat}(\mathbf{s}_n | \boldsymbol{\pi})
\Bigr]
+ \ln \mathrm{Dir}(\boldsymbol{\pi} | \boldsymbol{\alpha})
+ \mathrm{const.}
\\
&= \sum_{n=1}^N
\mathbb{E}_{q(\mathbf{s}_n)} \left[
\ln \prod_{k=1}^K
\pi_k^{s_{n,k}}
\right]
+ \ln C_D(\boldsymbol{\alpha})
\prod_{k=1}^K \pi_k^{\alpha_k-1}
+ \mathrm{const.}
\\
&= \sum_{n=1}^N
\mathbb{E}_{q(\mathbf{s}_n)} \left[
\sum_{k=1}^K
s_{n,k} \ln \pi_k
\right]
+ \ln C_D(\boldsymbol{\alpha})
+ \sum_{k=1}^K (\alpha_k - 1) \ln \pi_k
+ \mathrm{const.}
\\
&= \sum_{k=1}^K \left\{
\sum_{n=1}^N
\mathbb{E}_{q(\mathbf{s}_n)} [s_{n,k}]
\ln \pi_k
+ (\alpha_k - 1) \ln \pi_k
\right\}
+ \mathrm{const.}
\\
&= \sum_{k=1}^K
\left(
\sum_{n=1}^N \mathbb{E}_{q(\mathbf{s}_n)} [s_{n,k}]
+ \alpha_k - 1
\right)
\ln \pi_k
+ \mathrm{const.}
\tag{4.56}
\end{align}
$$
となる。$\ln q(\boldsymbol{\lambda})$は左辺から移項したものである。
式(4.56)について
$$
\hat{\alpha}_k
= \sum_{n=1}^N
\mathbb{E}_{q(\mathbf{s}_n)} [s_{n,k}]
+ \alpha_k
\tag{4.58}
$$
とおき
$$
\ln q(\boldsymbol{\pi})
= \sum_{k=1}^K
(\hat{\alpha}_k - 1)
\ln \pi_k
+ \mathrm{const.}
$$
さらに$\ln$を外し、$\mathrm{const.}$を正規化項に置き換える(正規化する)と
$$
q(\boldsymbol{\pi})
= C_D(\boldsymbol{\alpha})
\prod_{k=1}^K
\pi_k^{\hat{\alpha}_k-1}
= \mathrm{Dir}(\boldsymbol{\pi} | \hat{\boldsymbol{\alpha}})
\tag{4.57}
$$
$\boldsymbol{\pi}$の近似事後分布は、パラメータ$\hat{\boldsymbol{\alpha}} = (\hat{\alpha}_1, \cdots, \hat{\alpha}_K)$を持つディリクレ分布になることが分かる。
$\hat{\alpha}_k$の計算式(更新式)(4.58)について、$q(\mathbf{s}_n) = \mathrm{Cat}(\mathbf{s}_n | \boldsymbol{\eta}_n)$なので、カテゴリ分布の期待値(2.31)より
$$
\mathbb{E}_{q(\mathbf{s}_n)} [s_{n,k}]
= \eta_{n,k}
\tag{4.59}
$$
で計算できる。
・潜在変数の近似事後分布のパラメータの計算
各分布が明らかになったので、最後に$\eta_{n,k}$の計算式(更新式)(4.51)の各項について確認する。
$q(\lambda_k) = \mathrm{Gam}(\lambda_k | \hat{a}_k, \hat{b}_k)$、$q(\boldsymbol{\pi}) = \mathrm{Dir}(\boldsymbol{\pi} | \hat{\boldsymbol{\alpha}})$なので、ガンマ分布の期待値(2.59)、ガンマ分布の対数の期待値(2.60)、ディリクレ分布の期待値(2.52)より
$$
\begin{align}
\mathbb{E}_{q(\lambda_k)} [\lambda_k]
&= \frac{\hat{a}_k}{\hat{b}_k}
\tag{4.60}
\\
\mathbb{E}_{q(\lambda_k)} [\ln \lambda_k]
&= \psi(\hat{a}_k)
- \ln \hat{b}_k
\tag{4.61}
\\
\mathbb{E}_{q(\boldsymbol{\pi})} [\ln \pi_k]
&= \psi(\hat{\alpha}_k)
- \psi \left(\sum_{k'=1}^K \hat{\alpha}_{k'} \right)
\tag{4.62}
\end{align}
$$
で計算できる。
参考文献
- 須山敦志『ベイズ推論による機械学習入門』(機械学習スタートアップシリーズ)杉山将監修,講談社,2017年.
おわりに
前回に引き続きこの記事もOsaka.Rのリモート朝もく会中に書いたものになります。
Osaka.Rが主催する毎平日8時から10時のもくもく会です。 参加するには下記URLからOsaka.Rのslackに登録してください。 #mokumoku チャンネルのトピックを見るともくもく会場への案内をご覧頂けます。
https://join.slack.com/t/osakar/shared_invite/zt-dgjyfztf-AVYDIx~P8Ncl6deigOOarA
イベントとしても公開していますので、そちらに登録いただいてもかまいません。
朝のちょっとした時間を活かしませんか? 途中参加途中離脱OK。 チャットでその日の課題を宣言してもくもく開始。困ったことがあればチャットや画面共有で協力し合いましょう。 大阪府外の方も大歓迎です!
osaka-r.connpass.com
暫く開催されるとのことですので、(Rユーザーの)皆様ぜひぜひ一緒に参加しましょー。私は毎日参加するつもりです!
【次節の内容】
www.anarchive-beta.com
今でもほとんど毎日朝もくに参加してますー。この修正も朝もくを中心に進めました!