はじめに
『パターン認識と機械学習』の独学時のまとめです。一連の記事は「数式の行間埋め」または「R・Pythonでの実装」からアルゴリズムの理解を補助することを目的としています。本とあわせて読んでください。
この記事は、10.1.3項の内容です。平均と精度が未知の1次元ガウス分布(正規分布)に対する変分推論(変分ベイズ)を導出します。
【実装編】
www.anarchive-beta.com
www.anarchive-beta.com
【他の節一覧】
www.anarchive-beta.com
【この節の内容】
10.1.3 一変数ガウス分布の変分推論
1次元ガウス分布から独立に発生したと仮定する$N$個の観測データ集合$\mathcal{D} = \{x_1, x_2, \cdots, x_N\}$が与えられたときの、平均$\mu$と精度(分散$\sigma^2$の逆数)$\tau = \frac{1}{\sigma^2}$の事後分布を変分推論により近似する。
・モデルの設定
この例では、尤度関数を平均$\mu$、精度(分散の逆数)$\tau$の1次元ガウス分布とする。
$$
p(\mathcal{D} | \mu, \tau)
= \left(
\frac{\tau}{2 \pi}
\right)^{\frac{N}{2}}
\exp \left\{
- \frac{\tau}{2}
\sum_{n=1}^N
(x_n - \mu)^2
\right\}
= \mathcal{N}(\mathcal{D} | \mu, \tau^{-1})
\tag{10.21}
$$
また、パラメータ$\mu,\ \tau$の同時事前分布をガウス-ガンマ分布とする。
$$
\begin{aligned}
p(\mu, \tau)
&= p(\mu | \tau)
p(\tau)
\\
&= \mathcal{N}(\mu | \mu_0, (\lambda_0 \tau)^{-1})
\mathrm{Gam}(\tau | a_0, b_0)
\end{aligned}
$$
平均と精度が未知の1次元ガウス分布の共役事前分布である。$\mu$と$\tau$は依存関係を持つ。
よって、$\mu$の事前分布は平均$\mu_0$、精度$\lambda_0 \tau$の1次元ガウス分布
$$
p(\mu | \tau)
= \left(
\frac{\lambda_0 \tau}{2 \pi}
\right)^{\frac{1}{2}}
\exp \left\{
- \frac{\lambda_0 \tau}{2}
(\mu - \mu_0)^2
\right\}
= \mathcal{N}(\mu | \mu_0, (\lambda_0 \tau)^{-1})
\tag{10.22}
$$
であり、$\tau$の事前分布はパラメータ$a_0,\ b_0$を持つガンマ分布
$$
p(\tau)
= \frac{b_0^{a_0}}{\Gamma(a_0)}
\tau^{a-1}
\exp(- b_0 \tau)
= \mathrm{Gam}(\tau | a_0, b_0)
\tag{10.23}
$$
である。
この問題は、事後分布$p(\mu, \tau | \mathcal{D})$を解析的に求められる。ここでは、これを変分推論法(10.1.1項)により解く。
パラメータ$\mu,\ \tau$の同時近似分布を$q(\mu, \tau)$とおき、それぞれのパラメータの分布に分解できる(依存関係がない)と仮定する。
$$
q(\mu, \tau)
= q_{\mu}(\mu)
q_{\tau}(\tau)
\tag{10.24}
$$
この近似分布をEMアルゴリズムにより真の事後分布に近付けていく(近似する)。ちなみに、真の事後分布は事前分布と同様に依存関係$p(\mu, \tau | \mathcal{D}) = p(\mu | \mathcal{D}, \tau) p(\tau | \mathcal{D})$がある。
近似分布$q(\mu, \tau)$を用いて、下界(10.3)を次の式とおく。
$$
\begin{align}
\mathcal{L}(q(\mu, \tau))
&= \iint
q(\mu, \tau)
\ln \frac{
p(\mathcal{D}, \mu, \tau)
}{
q(\mu, \tau)
}
d\mu d\tau
\\
&= \iint
q_{\mu}(\mu)
q_{\tau}(\tau) \Bigl\{
\ln p(\mathcal{D}, \mu, \tau)
- \ln q_{\mu}(\mu)
- \ln q_{\tau}(\tau)
\Bigr\}
d\mu d\tau
\\
&= \iint
q_{\mu}(\mu)
q_{\tau}(\tau)
\ln p(\mathcal{D}, \mu, \tau)
d\mu d\tau \\
&\qquad
- \int
q_{\mu}(\mu) \ln q_{\mu}(\mu)
d\mu
\int q_{\tau}(\tau) d\tau
- \int q_{\mu}(\mu) d\mu
\int
q_{\tau}(\tau) \ln q_{\tau}(\tau)
d\tau
\\
&= \iint
q_{\mu}(\mu)
q_{\tau}(\tau)
\ln p(\mathcal{D}, \mu, \tau)
d\mu d\tau
- \int
q_{\mu}(\mu) \ln q_{\mu}(\mu)
d\mu
- \int
q_{\tau}(\tau) \ln q_{\tau}(\tau)
d\tau
\tag{1}
\end{align}
$$
積分に影響しない項は$\int$の外に出せる$\int c f(x) dx = c \int f(x) dx$。また、連続確率分布の定義より$\int q_{\mu}(\mu) d\mu = 1$、$\int q_{\tau}(\tau) d\tau = 1$である。
この下界$\mathcal{L}(q(\mu, \tau))$が最大になる各パラメータの近似分布$q_{\mu}(\mu),\ q_{\tau}(\tau)$を求める。
・平均パラメータの近似事後分布の導出
まずは、下界$\mathcal{L}(q(\mu, \tau))$を最大化する平均パラメータ$\mu$の近似分布$q_{\mu}(\mu)$を求めていく。
式(1)を$q_{\mu}(\mu)$に関して整理する。
$$
\begin{align}
\mathcal{L}(q(\mu, \tau))
&= \int
q_{\mu}(\mu) \left\{
\int
q_{\tau}(\tau) \ln p(\mathcal{D}, \mu, \tau)
d\tau
\right\}
d\mu
- \int
q_{\mu}(\mu) \ln q_{\mu}(\mu)
d\mu
+ \mathrm{const}
\tag{1'}\\
&= \int
q_{\mu}(\mu)
\mathbb{E}_{q_{\tau}(\tau)} \Bigl[
\ln p(\mathcal{D}, \mu, \tau)
\Bigr]
d\mu
- \int
q_{\mu}(\mu) \ln q_{\mu}(\mu)
d\mu
+ \mathrm{const}
\end{align}
$$
1つ目の因子の$\tau$に関する積分(期待値)計算を行い、$\mu$に影響しない3つ目の因子を$\mathrm{const}$とおいた。
その期待値の項を
$$
\ln \tilde{p}_{\mu}(\mathcal{D}, \mu)
= \mathbb{E}_{q_{\tau}(\tau)} \Bigl[
\ln p(\mathcal{D}, \mu, \tau)
\Bigr]
+ \mathrm{const}
$$
とおく。この$\mathrm{const}$は、$\tilde{p}_{\mu}(\mathcal{D}, \mu)$を確率分布とするための正規化項である。
$$
\begin{aligned}
\mathcal{L}(q(\mu, \tau))
&= \int
q_{\mu}(\mu)
\ln \tilde{p}_{\mu}(\mathcal{D}, \mu)
d\mu
- \int
q_{\mu}(\mu)
\ln q_{\mu}(\mu)
d\mu
+ \mathrm{const}
\\
&= \int
q_{\mu}(\mu) \Bigl\{
\ln \tilde{p}_{\mu}(\mathcal{D}, \mu)
- \ln q_{\mu}(\mu)
\Bigr\}
d\mu
+ \mathrm{const}
\\
&= \int
q_{\mu}(\mu)
\ln \frac{
\tilde{p}_{\mu}(\mathcal{D}, \mu)
}{
q_{\mu}(\mu)
}
d\mu
+ \mathrm{const}
\\
&= - \mathrm{KL}(q_{\mu} \| \tilde{p}_{\mu})
+ \mathrm{const}
\end{aligned}
$$
$\mathcal{L}(q(\mu, \tau))$は、$q_{\mu}(\mu)$と$\tilde{p}_{\mu}(\mathcal{D}, \mu)$の負のカルバック-ライブラーダイバージェンスになるのが分かる。
つまり、$q_{\mu}(\mu) = \tilde{p}_{\mu}(\mathcal{D}, \mu)$のとき$\mathrm{KL}(q_{\mu} | \tilde{p}_{\mu}) = 0$となり、$\mathcal{L}(q(\mu, \tau))$が最大となる。
最適化された(下界を最大化する)近似分布を$q_{\mu}^{*}(\mu)$として、$q_{\mu}^{*}(\mu)$の形状を明らかにしていく。観測データとパラメータの同時分布$p(\mathcal{D}, \mu, \tau)$を、最初に確認した仮定に従い分解する。
$$
\begin{aligned}
q_{\mu}^{*}(\mu)
&= \mathbb{E}_{q_{\tau}(\tau)} \Bigl[
\ln p(\mathcal{D}, \mu, \tau)
\Bigr]
+ \mathrm{const}
\\
&= \mathbb{E}_{q_{\tau}(\tau)} \Bigl[
\ln \Bigl\{
p(\mathcal{D} | \mu, \tau)
p(\mu | \tau)
p(\tau)
\Bigr\}
\Bigr]
+ \mathrm{const}
\\
&= \mathbb{E}_{q_{\tau}(\tau)} \Bigl[
\ln p(\mathcal{D} | \mu, \tau)
+ \ln p(\mu | \tau)
+ \ln p(\tau)
\Bigr]
+ \mathrm{const}
\end{aligned}
$$
各分布に仮定した具体的な分布を代入して$\mu$に関して式を整理する。
$$
\begin{align}
\ln q_{\mu}^{*}(\mu)
&= \mathbb{E}_{q_{\tau}(\tau)} \Bigl[
\ln p(\mathcal{D} | \mu, \tau)
+ \ln p(\mu | \tau)
\Bigr]
+ \mathrm{const}
\\
&= \mathbb{E}_{q_{\tau}(\tau)} \Bigl[
\ln \mathcal{N}(\mathcal{D} | \mu, \tau^{-1})
+ \ln \mathcal{N}(\mu | \mu_0, (\lambda_0 \tau)^{-1})
\Bigr]
+ \mathrm{const}
\\
&= \mathbb{E}_{q_{\tau}(\tau)} \left[
\frac{N}{2} \ln \frac{\tau}{2 \pi}
- \frac{\tau}{2}
\sum_{n=1}^N
(x_n - \mu)^2
+ \frac{1}{2} \ln \frac{\lambda_0 \tau}{2 \pi}
- \frac{\lambda_0 \tau}{2}
(\mu - \mu_0)^2
\right]
+ \mathrm{const}
\\
&= - \frac{\mathbb{E}_{q_{\tau}(\tau)}[\tau]}{2} \left\{
\sum_{n=1}^N
(x_n - \mu)^2
+ \lambda_0 (\mu - \mu_0)^2
\right\}
+ \mathrm{const}
\tag{10.25}
\end{align}
$$
$\tau$と無関係な項は$\mathbb{E}_{q_{\tau}(\tau)}[\cdot]$の外に出せる。また、$\mu$と無関係な項を適宜$\mathrm{const}$にまとめる。
丸括弧を展開して$\mu^2$と$\mu$の項をそれぞれまとめる。
$$
\begin{aligned}
\ln q_{\mu}^{*}(\mu)
&= - \frac{\mathbb{E}_{q_{\tau}(\tau)}[\tau]}{2} \left\{
\sum_{n=1}^N
x_n^2
- 2 \sum_{n=1}^N
x_n \mu
+ N \mu^2
+ \lambda_0 \mu^2
- 2 \lambda_0 \mu_0 \mu
+ \lambda_0 \mu_0^2
\right\}
+ \mathrm{const}
\\
&= - \frac{\mathbb{E}_{q_{\tau}(\tau)}[\tau]}{2} \left\{
- 2 \sum_{n=1}^N
x_n \mu
+ N \mu^2
+ \lambda_0 \mu^2
- 2 \lambda_0 \mu_0 \mu
\right\}
+ \mathrm{const}
\\
&= - \frac{\mathbb{E}_{q_{\tau}(\tau)}[\tau]}{2} \left\{
(N + \lambda_0)
\mu^2
- 2 \left(
\sum_{n=1}^N x_n + \lambda_0 \mu_0
\right)
\mu
\right\}
+ \mathrm{const}
\end{aligned}
$$
観測データの平均を$\bar{x} = \frac{1}{N} \sum_{n=1}^N x_n$として
$$
\begin{align}
\tilde{\mu}_N
&= (\lambda_0 \mu_0 + N \bar{x})
\mathbb{E}_{q_{\tau}(\tau)}[\tau]
\\
\lambda_N
&= (\lambda_0 + N)
\mathbb{E}_{q_{\tau}(\tau)}[\tau]
\tag{10.27}
\end{align}
$$
とおき、平方完成する。
$$
\begin{aligned}
\ln q_{\mu}^{*}(\mu)
&= - \frac{1}{2} \Bigl\{
\lambda_N \mu^2
- 2 \tilde{\mu}_N \mu
\Bigr\}
+ \mathrm{const}
\\
&= - \frac{\lambda_N}{2} \left\{
\mu^2
- 2 \frac{\tilde{\mu}_N}{\lambda_N} \mu
\right\}
+ \mathrm{const}
\\
&= - \frac{\lambda_N}{2} \left\{
\mu^2
- 2 \frac{\tilde{\mu}_N}{\lambda_N} \mu
+ \Bigl(
\frac{\tilde{\mu}_N}{\lambda_N}
\Bigr)^2
- \Bigl(
\frac{\tilde{\mu}_N}{\lambda_N}
\Bigr)^2
\right\}
+ \mathrm{const}
\\
&= - \frac{\lambda_N}{2}
\Bigl(
\mu - \frac{\tilde{\mu}_N}{\lambda_N}
\Bigr)^2
+ \mathrm{const}
\end{aligned}
$$
2乗の形$(\mu - \frac{\tilde{\mu}_N}{\lambda_N})^2$にまとめるため、$(\frac{\tilde{\mu}_N}{\lambda_N})^2 - (\frac{\tilde{\mu}_N}{\lambda_N})^2 = 0$を代入した。ただし、後の項は$\mu$と無関係なので$\mathrm{const}$に含めた。
式の形から、対数をとった1次元ガウス分布なのが分かるので
$$
\begin{align}
\mu_N
&= \frac{\tilde{\mu}_N}{\lambda_N}
\\
&= \frac{
\lambda_0 \mu_0 + N \bar{x}
}{
\lambda_0 + N
}
\tag{10.26}
\end{align}
$$
とおき
$$
\ln q_{\mu}^{*}(\mu)
= - \frac{\lambda_N}{2}
(\mu - \mu_N)^2
+ \mathrm{const}
= \ln \mathcal{N}(\mu | \mu_N, \lambda_N^{-1})
$$
さらに、$\ln$を外して$\mathrm{const}$を正規化項に置き換える(正規化する)と、平均$\mu_N$、精度$\lambda_N$の1次元ガウス分布となる。
$$
q_{\mu}^{*}(\mu)
= \Bigl(
\frac{\lambda_N}{2 \pi}
\Bigr)^{\frac{1}{2}}
\exp \left\{
- \frac{\lambda_N}{2}
(\mu - \mu_N)^2
\right\}
= \mathcal{N}(\mu | \mu_N, \lambda_N^{-1})
$$
最適解$q_{\mu}^{*}(\mu)$が得られた。また、式(10.26)(10.27)が超パラメータの更新式である。
・精度パラメータの近似事後分布の導出
同様に、下界$\mathcal{L}(q(\mu, \tau))$を最大化する精度パラメータ$\tau$の近似分布$q_{\tau}(\tau)$を求めていく。
式(1)を$q_{\tau}(\tau)$に関して整理する。
$$
\begin{align}
\mathcal{L}(q(\mu, \tau))
&= \int
q_{\tau}(\tau) \left\{
\int
q_{\mu}(\mu) \ln p(\mathcal{D}, \mu, \tau)
d\mu
\right\}
d\tau
- \int
q_{\tau}(\tau) \ln q_{\tau}(\tau)
d\tau
+ \mathrm{const}
\tag{1'}\\
&= \int
q_{\tau}(\tau)
\mathbb{E}_{q_{\mu}(\mu)} \Bigl[
\ln p(\mathcal{D}, \mu, \tau)
\Bigr]
d\tau
- \int
q_{\tau}(\tau) \ln q_{\tau}(\tau)
d\tau
+ \mathrm{const}
\end{align}
$$
1つ目の因子の$\mu$に関する積分(期待値)計算を行い、$\tau$に影響しない2つ目の因子を$\mathrm{const}$とおいた。
その期待値の項を
$$
\ln \tilde{p}_{\tau}(\mathcal{D}, \tau)
= \mathbb{E}_{q_{\mu}(\mu)} \Bigl[
\ln p(\mathcal{D}, \mu, \tau)
\Bigr]
+ \mathrm{const}
$$
とおく。この$\mathrm{const}$は、$\tilde{p}_{\tau}(\mathcal{D}, \tau)$を確率分布とするための正規化項である。
$$
\begin{aligned}
\mathcal{L}(q(\mu, \tau))
&= \int
q_{\tau}(\tau)
\ln \tilde{p}_{\tau}(\mathcal{D}, \tau)
d\tau
- \int
q_{\tau}(\tau)
\ln q_{\tau}(\tau)
d\tau
+ \mathrm{const}
\\
&= \int
q_{\tau}(\tau) \Bigl\{
\ln \tilde{p}_{\tau}(\mathcal{D}, \tau)
- \ln q_{\tau}(\tau)
\Bigr\}
d\tau
+ \mathrm{const}
\\
&= \int
q_{\tau}(\tau)
\ln \frac{
\tilde{p}_{\tau}(\mathcal{D}, \tau)
}{
q_{\tau}(\tau)
}
d\tau
+ \mathrm{const}
\\
&= - \mathrm{KL}(q_{\tau} \| \tilde{p}_{\tau})
+ \mathrm{const}
\end{aligned}
$$
$\mathcal{L}(q(\mu, \tau))$は、$q_{\tau}(\tau)$と$\tilde{p}_{\tau}(\mathcal{D}, \mu)$の負のカルバック-ライブラーダイバージェンスになるのが分かる。
つまり、$q_{\tau}(\tau) = \tilde{p}_{\tau}(\mathcal{D}, \tau)$のとき$\mathrm{KL}(q_{\tau} | \tilde{p}_{\tau}) = 0$となり、$\mathcal{L}(q(\mu, \tau))$が最大となる。
最適化された(下界を最大化する)近似分布を$q_{\tau}^{*}(\tau)$として、$q_{\tau}^{*}(\mu)$の形状を明らかにしていく。観測データとパラメータの同時分布$p(\mathcal{D}, \mu, \tau)$を分解する。
$$
\begin{aligned}
q_{\tau}^{*}(\tau)
&= \mathbb{E}_{q_{\mu}(\mu)} \Bigl[
\ln p(\mathcal{D}, \mu, \tau)
\Bigr]
+ \mathrm{const}
\\
&= \mathbb{E}_{q_{\mu}(\mu)} \Bigl[
\ln \Bigl\{
p(\mathcal{D} | \mu, \tau)
p(\mu | \tau)
p(\tau)
\Bigr\}
\Bigr]
+ \mathrm{const}
\\
&= \mathbb{E}_{q_{\mu}(\mu)} \Bigl[
\ln p(\mathcal{D} | \mu, \tau)
+ \ln p(\mu | \tau)
+ \ln p(\tau)
\Bigr]
+ \mathrm{const}
\end{aligned}
$$
各分布に仮定した具体的な分布を代入して$\tau$に関して式を整理する。
$$
\begin{align}
\ln q_{\tau}^{*}(\tau)
&= \mathbb{E}_{g_{\mu}(\mu)} \Bigl[
\ln p(\mathcal{D} | \mu, \tau)
+ \ln p(\mu | \tau)
\Bigr]
+ \ln p(\tau)
+ \mathrm{const}
\\
&= \mathbb{E}_{g_{\mu}(\mu)} \Bigl[
\ln \mathcal{N}(\mathcal{D} | \mu, \tau^{-1})
+ \ln \mathcal{N}(\mu | \mu_0, (\lambda_0 \tau)^{-1})
\Bigr]
+ \ln \mathrm{Gam}(\tau | a_0, b_0)
+ \mathrm{const}
\\
&= \mathbb{E}_{g_{\mu}(\mu)} \left[
\frac{N}{2} (
\ln \tau - \ln 2 \pi
)
- \frac{\tau}{2}
\sum_{n=1}^N
(x_n - \mu)^2
+ \frac{1}{2} (
\ln \lambda_0 + \ln \tau - \ln 2 \pi
)
- \frac{\lambda_0 \tau}{2}
(\mu - \mu_0)^2
\right] \\
&\qquad
+ \ln \frac{b_0^{a_0}}{\Gamma(a_0)}
+ (a_0 - 1) \ln \tau
- b_0 \tau
+ \mathrm{const}
\\
&= \frac{N}{2} \ln \tau
+ \frac{1}{2} \ln \tau
- \frac{\tau}{2}
\mathbb{E}_{g_{\mu}(\mu)} \left[
\sum_{n=1}^N
(x_n - \mu)^2
+ \lambda_0 (\mu - \mu_0)^2
\right] \\
&\qquad
+ (a_0 - 1) \ln \tau
- b_0 \tau
+ \mathrm{const}
\tag{10.28}\\
&= \left(
a_0 + \frac{N + 1}{2} - 1
\right)
\ln \tau
- \left(
b_0 + \frac{1}{2}
\mathbb{E}_{g_{\mu}(\mu)} \left[
\sum_{n=1}^N
(x_n - \mu)^2
+ \lambda_0 (\mu - \mu_0)^2
\right]
\right)
\tau
+ \mathrm{const}
\end{align}
$$
$\mu$と無関係な項は$\mathbb{E}_{q_{\mu}(\mu)}[\cdot]$の外に出せる。また、$\tau$と無関係な項を適宜$\mathrm{const}$にまとめて、$\ln \tau$と$\tau$の項をそれぞれまとめる。
式の形から、対数をとったガンマ分布なのが分かるので
$$
\begin{align}
a_N
&= a_0 + \frac{N + 1}{2}
\tag{10.29}\\
b_N
&= b_0
+ \frac{1}{2}
\mathbb{E}_{g_{\mu}(\mu)} \left[
\sum_{n=1}^N
(x_n - \mu)^2
+ \lambda_0 (\mu - \mu_0)^2
\right]
\tag{10.30}
\end{align}
$$
とおき
$$
\ln q_{\tau}^{*}(\tau)
= (a_N - 1) \ln \tau
- b_N \tau
+ \mathrm{const}
= \ln \mathrm{Gam}(\tau | a_N, b_N)
$$
さらに、$\ln$を外して$\mathrm{const}$を正規化項に置き換える(正規化する)と、パラメータ$a_N,\ b_N$を持つガンマ分布となる。
$$
q_{\tau}^{*}(\tau)
= \frac{b_N^{a_N}}{\gamma(a_N)}
\tau^{a_N-1}
\exp(- b_N \tau)
= \mathrm{Gam}(\tau | a_N, b_N)
$$
最適解$q_{\tau}^{*}(\tau)$が得られた。また、式(10.29)(10.30)が超パラメータの更新式である。
・超パラメータの更新式の計算
最後に、$\mu,\ \tau$の近似事後分布が得られたので、各超パラメータの計算式について確認する。
$q_{\mu}^{*}(\mu)$の精度パラメータ$\lambda_N$の計算式(10.27)に含まれる$\mathbb{E}_{q_{\tau}(\tau)}[\tau]$を求める。$q_{\tau}^{*}(\tau)$はガンマ分布なので、ガンマ分布の期待値(B.27)より、次の式で計算できる。
$$
\mathbb{E}_{q_{\tau}^{*}(\tau)}[\tau]
= \frac{a_N}{b_N}
$$
続いて、$q_{\tau}^{*}(\tau)$のパラメータ$b_N$の計算式(10.30)を展開すると
$$
\begin{align}
b_N
&= b_0
+ \frac{1}{2}
\mathbb{E}_{g_{\mu}(\mu)} \left[
\sum_{n=1}^N
(x_n - \mu)^2
+ \lambda_0 (\mu - \mu_0)^2
\right]
\tag{10.30}\\
&= b_0
+ \frac{1}{2}
\mathbb{E}_{g_{\mu}(\mu)} \left[
\sum_{n=1}^N
x_n^2
- 2 \sum_{n=1}^N
x_n \mu
+ N \mu^2
+ \lambda_0 \mu^2
- 2 \lambda_0 \mu_0 \mu
+ \lambda_0 \mu_0^2
\right]
\\
&= b_0
+ \frac{1}{2} \left(
\lambda_0 \mu_0^2
+ \sum_{n=1}^N x_n^2
\right)
+ \frac{\lambda_0 + N}{2}
\mathbb{E}_{g_{\mu}(\mu)} [\mu^2]
- (\lambda_0 \mu_0 + N \bar{x})
\mathbb{E}_{g_{\mu}(\mu)} [\mu]
\end{align}
$$
となる。
この式に含まれる$\mathbb{E}_{g_{\mu}^{*}(\mu)} [\mu],\ \mathbb{E}_{g_{\mu}^{*}(\mu)} [\mu^2]$を求める。$g_{\mu}^{*}(\mu)$はガウス分布なので、ガウス分布の期待値(B.33)と分散(B.34)より、次の式で計算できる。
$$
\begin{aligned}
\mathbb{E}_{g_{\mu}^{*}(\mu)} [\mu]
&= \mu_N
\\
\mathbb{E}_{g_{\mu}^{*}(\mu)} [\mu^2]
&= \mu_N^2 + \frac{1}{\lambda_N}
\end{aligned}
$$
分散は「2乗の期待値」と「期待値の2乗」の差$\mathrm{var}[x] = \mathbb{E}[x^2] - \mathbb{E}[x]^2$なので、2乗の期待値は$\mathbb{E}[x^2] = \mathrm{var}[\tau] + \mathbb{E}[x]^2$で求められる。
参考文献
- C.M.ビショップ著,元田 浩・他訳『パターン認識と機械学習 上下』,丸善出版,2012年.
おわりに
須山ベイズと良い感じに補完し合ってて面白い。そして勉強になる。
【関連する内容】
解析的に解く(真の事後分布を求める)のはこちらの記事でやりました。
www.anarchive-beta.com