からっぽのしょこ

読んだら書く!書いたら読む!同じ事は二度調べ(たく)ない

10.1.3:一変数ガウス分布の変分推論【PRMLのノート】

はじめに

 『パターン認識と機械学習』の独学時のまとめです。一連の記事は「数式の行間埋め」または「R・Pythonでの実装」からアルゴリズムの理解を補助することを目的としています。本とあわせて読んでください。

 この記事は、10.1.3項の内容です。平均と精度が未知の1次元ガウス分布(正規分布)に対する変分推論(変分ベイズ)を導出します。

【実装編】

www.anarchive-beta.com

www.anarchive-beta.com

【他の節一覧】

www.anarchive-beta.com

【この節の内容】

10.1.3 一変数ガウス分布の変分推論

 1次元ガウス分布から独立に発生したと仮定する$N$個の観測データ集合$\mathcal{D} = \{x_1, x_2, \cdots, x_N\}$が与えられたときの、平均$\mu$と精度(分散$\sigma^2$の逆数)$\tau = \frac{1}{\sigma^2}$の事後分布を変分推論により近似する。

・モデルの設定

 この例では、尤度関数を平均$\mu$、精度(分散の逆数)$\tau$の1次元ガウス分布とする。

$$ p(\mathcal{D} | \mu, \tau) = \left( \frac{\tau}{2 \pi} \right)^{\frac{N}{2}} \exp \left\{ - \frac{\tau}{2} \sum_{n=1}^N (x_n - \mu)^2 \right\} = \mathcal{N}(\mathcal{D} | \mu, \tau^{-1}) \tag{10.21} $$

 また、パラメータ$\mu,\ \tau$の同時事前分布をガウス-ガンマ分布とする。

$$ \begin{aligned} p(\mu, \tau) &= p(\mu | \tau) p(\tau) \\ &= \mathcal{N}(\mu | \mu_0, (\lambda_0 \tau)^{-1}) \mathrm{Gam}(\tau | a_0, b_0) \end{aligned} $$

 平均と精度が未知の1次元ガウス分布の共役事前分布である。$\mu$と$\tau$は依存関係を持つ。
 よって、$\mu$の事前分布は平均$\mu_0$、精度$\lambda_0 \tau$の1次元ガウス分布

$$ p(\mu | \tau) = \left( \frac{\lambda_0 \tau}{2 \pi} \right)^{\frac{1}{2}} \exp \left\{ - \frac{\lambda_0 \tau}{2} (\mu - \mu_0)^2 \right\} = \mathcal{N}(\mu | \mu_0, (\lambda_0 \tau)^{-1}) \tag{10.22} $$

であり、$\tau$の事前分布はパラメータ$a_0,\ b_0$を持つガンマ分布

$$ p(\tau) = \frac{b_0^{a_0}}{\Gamma(a_0)} \tau^{a-1} \exp(- b_0 \tau) = \mathrm{Gam}(\tau | a_0, b_0) \tag{10.23} $$

である。

 この問題は、事後分布$p(\mu, \tau | \mathcal{D})$を解析的に求められる。ここでは、これを変分推論法(10.1.1項)により解く。

 パラメータ$\mu,\ \tau$の同時近似分布を$q(\mu, \tau)$とおき、それぞれのパラメータの分布に分解できる(依存関係がない)と仮定する。

$$ q(\mu, \tau) = q_{\mu}(\mu) q_{\tau}(\tau) \tag{10.24} $$

 この近似分布をEMアルゴリズムにより真の事後分布に近付けていく(近似する)。ちなみに、真の事後分布は事前分布と同様に依存関係$p(\mu, \tau | \mathcal{D}) = p(\mu | \mathcal{D}, \tau) p(\tau | \mathcal{D})$がある。

 近似分布$q(\mu, \tau)$を用いて、下界(10.3)を次の式とおく。

$$ \begin{align} \mathcal{L}(q(\mu, \tau)) &= \iint q(\mu, \tau) \ln \frac{ p(\mathcal{D}, \mu, \tau) }{ q(\mu, \tau) } d\mu d\tau \\ &= \iint q_{\mu}(\mu) q_{\tau}(\tau) \Bigl\{ \ln p(\mathcal{D}, \mu, \tau) - \ln q_{\mu}(\mu) - \ln q_{\tau}(\tau) \Bigr\} d\mu d\tau \\ &= \iint q_{\mu}(\mu) q_{\tau}(\tau) \ln p(\mathcal{D}, \mu, \tau) d\mu d\tau \\ &\qquad - \int q_{\mu}(\mu) \ln q_{\mu}(\mu) d\mu \int q_{\tau}(\tau) d\tau - \int q_{\mu}(\mu) d\mu \int q_{\tau}(\tau) \ln q_{\tau}(\tau) d\tau \\ &= \iint q_{\mu}(\mu) q_{\tau}(\tau) \ln p(\mathcal{D}, \mu, \tau) d\mu d\tau - \int q_{\mu}(\mu) \ln q_{\mu}(\mu) d\mu - \int q_{\tau}(\tau) \ln q_{\tau}(\tau) d\tau \tag{1} \end{align} $$

 積分に影響しない項は$\int$の外に出せる$\int c f(x) dx = c \int f(x) dx$。また、連続確率分布の定義より$\int q_{\mu}(\mu) d\mu = 1$、$\int q_{\tau}(\tau) d\tau = 1$である。

 この下界$\mathcal{L}(q(\mu, \tau))$が最大になる各パラメータの近似分布$q_{\mu}(\mu),\ q_{\tau}(\tau)$を求める。

・平均パラメータの近似事後分布の導出

 まずは、下界$\mathcal{L}(q(\mu, \tau))$を最大化する平均パラメータ$\mu$の近似分布$q_{\mu}(\mu)$を求めていく。

 式(1)を$q_{\mu}(\mu)$に関して整理する。

$$ \begin{align} \mathcal{L}(q(\mu, \tau)) &= \int q_{\mu}(\mu) \left\{ \int q_{\tau}(\tau) \ln p(\mathcal{D}, \mu, \tau) d\tau \right\} d\mu - \int q_{\mu}(\mu) \ln q_{\mu}(\mu) d\mu + \mathrm{const} \tag{1'}\\ &= \int q_{\mu}(\mu) \mathbb{E}_{q_{\tau}(\tau)} \Bigl[ \ln p(\mathcal{D}, \mu, \tau) \Bigr] d\mu - \int q_{\mu}(\mu) \ln q_{\mu}(\mu) d\mu + \mathrm{const} \end{align} $$

 1つ目の因子の$\tau$に関する積分(期待値)計算を行い、$\mu$に影響しない3つ目の因子を$\mathrm{const}$とおいた。
 その期待値の項を

$$ \ln \tilde{p}_{\mu}(\mathcal{D}, \mu) = \mathbb{E}_{q_{\tau}(\tau)} \Bigl[ \ln p(\mathcal{D}, \mu, \tau) \Bigr] + \mathrm{const} $$

とおく。この$\mathrm{const}$は、$\tilde{p}_{\mu}(\mathcal{D}, \mu)$を確率分布とするための正規化項である。

$$ \begin{aligned} \mathcal{L}(q(\mu, \tau)) &= \int q_{\mu}(\mu) \ln \tilde{p}_{\mu}(\mathcal{D}, \mu) d\mu - \int q_{\mu}(\mu) \ln q_{\mu}(\mu) d\mu + \mathrm{const} \\ &= \int q_{\mu}(\mu) \Bigl\{ \ln \tilde{p}_{\mu}(\mathcal{D}, \mu) - \ln q_{\mu}(\mu) \Bigr\} d\mu + \mathrm{const} \\ &= \int q_{\mu}(\mu) \ln \frac{ \tilde{p}_{\mu}(\mathcal{D}, \mu) }{ q_{\mu}(\mu) } d\mu + \mathrm{const} \\ &= - \mathrm{KL}(q_{\mu} \| \tilde{p}_{\mu}) + \mathrm{const} \end{aligned} $$

 $\mathcal{L}(q(\mu, \tau))$は、$q_{\mu}(\mu)$と$\tilde{p}_{\mu}(\mathcal{D}, \mu)$の負のカルバック-ライブラーダイバージェンスになるのが分かる。
 つまり、$q_{\mu}(\mu) = \tilde{p}_{\mu}(\mathcal{D}, \mu)$のとき$\mathrm{KL}(q_{\mu} | \tilde{p}_{\mu}) = 0$となり、$\mathcal{L}(q(\mu, \tau))$が最大となる。

 最適化された(下界を最大化する)近似分布を$q_{\mu}^{*}(\mu)$として、$q_{\mu}^{*}(\mu)$の形状を明らかにしていく。観測データとパラメータの同時分布$p(\mathcal{D}, \mu, \tau)$を、最初に確認した仮定に従い分解する。

$$ \begin{aligned} q_{\mu}^{*}(\mu) &= \mathbb{E}_{q_{\tau}(\tau)} \Bigl[ \ln p(\mathcal{D}, \mu, \tau) \Bigr] + \mathrm{const} \\ &= \mathbb{E}_{q_{\tau}(\tau)} \Bigl[ \ln \Bigl\{ p(\mathcal{D} | \mu, \tau) p(\mu | \tau) p(\tau) \Bigr\} \Bigr] + \mathrm{const} \\ &= \mathbb{E}_{q_{\tau}(\tau)} \Bigl[ \ln p(\mathcal{D} | \mu, \tau) + \ln p(\mu | \tau) + \ln p(\tau) \Bigr] + \mathrm{const} \end{aligned} $$

 各分布に仮定した具体的な分布を代入して$\mu$に関して式を整理する。

$$ \begin{align} \ln q_{\mu}^{*}(\mu) &= \mathbb{E}_{q_{\tau}(\tau)} \Bigl[ \ln p(\mathcal{D} | \mu, \tau) + \ln p(\mu | \tau) \Bigr] + \mathrm{const} \\ &= \mathbb{E}_{q_{\tau}(\tau)} \Bigl[ \ln \mathcal{N}(\mathcal{D} | \mu, \tau^{-1}) + \ln \mathcal{N}(\mu | \mu_0, (\lambda_0 \tau)^{-1}) \Bigr] + \mathrm{const} \\ &= \mathbb{E}_{q_{\tau}(\tau)} \left[ \frac{N}{2} \ln \frac{\tau}{2 \pi} - \frac{\tau}{2} \sum_{n=1}^N (x_n - \mu)^2 + \frac{1}{2} \ln \frac{\lambda_0 \tau}{2 \pi} - \frac{\lambda_0 \tau}{2} (\mu - \mu_0)^2 \right] + \mathrm{const} \\ &= - \frac{\mathbb{E}_{q_{\tau}(\tau)}[\tau]}{2} \left\{ \sum_{n=1}^N (x_n - \mu)^2 + \lambda_0 (\mu - \mu_0)^2 \right\} + \mathrm{const} \tag{10.25} \end{align} $$

 $\tau$と無関係な項は$\mathbb{E}_{q_{\tau}(\tau)}[\cdot]$の外に出せる。また、$\mu$と無関係な項を適宜$\mathrm{const}$にまとめる。
 丸括弧を展開して$\mu^2$と$\mu$の項をそれぞれまとめる。

$$ \begin{aligned} \ln q_{\mu}^{*}(\mu) &= - \frac{\mathbb{E}_{q_{\tau}(\tau)}[\tau]}{2} \left\{ \sum_{n=1}^N x_n^2 - 2 \sum_{n=1}^N x_n \mu + N \mu^2 + \lambda_0 \mu^2 - 2 \lambda_0 \mu_0 \mu + \lambda_0 \mu_0^2 \right\} + \mathrm{const} \\ &= - \frac{\mathbb{E}_{q_{\tau}(\tau)}[\tau]}{2} \left\{ - 2 \sum_{n=1}^N x_n \mu + N \mu^2 + \lambda_0 \mu^2 - 2 \lambda_0 \mu_0 \mu \right\} + \mathrm{const} \\ &= - \frac{\mathbb{E}_{q_{\tau}(\tau)}[\tau]}{2} \left\{ (N + \lambda_0) \mu^2 - 2 \left( \sum_{n=1}^N x_n + \lambda_0 \mu_0 \right) \mu \right\} + \mathrm{const} \end{aligned} $$

 観測データの平均を$\bar{x} = \frac{1}{N} \sum_{n=1}^N x_n$として

$$ \begin{align} \tilde{\mu}_N &= (\lambda_0 \mu_0 + N \bar{x}) \mathbb{E}_{q_{\tau}(\tau)}[\tau] \\ \lambda_N &= (\lambda_0 + N) \mathbb{E}_{q_{\tau}(\tau)}[\tau] \tag{10.27} \end{align} $$

とおき、平方完成する。

$$ \begin{aligned} \ln q_{\mu}^{*}(\mu) &= - \frac{1}{2} \Bigl\{ \lambda_N \mu^2 - 2 \tilde{\mu}_N \mu \Bigr\} + \mathrm{const} \\ &= - \frac{\lambda_N}{2} \left\{ \mu^2 - 2 \frac{\tilde{\mu}_N}{\lambda_N} \mu \right\} + \mathrm{const} \\ &= - \frac{\lambda_N}{2} \left\{ \mu^2 - 2 \frac{\tilde{\mu}_N}{\lambda_N} \mu + \Bigl( \frac{\tilde{\mu}_N}{\lambda_N} \Bigr)^2 - \Bigl( \frac{\tilde{\mu}_N}{\lambda_N} \Bigr)^2 \right\} + \mathrm{const} \\ &= - \frac{\lambda_N}{2} \Bigl( \mu - \frac{\tilde{\mu}_N}{\lambda_N} \Bigr)^2 + \mathrm{const} \end{aligned} $$

 2乗の形$(\mu - \frac{\tilde{\mu}_N}{\lambda_N})^2$にまとめるため、$(\frac{\tilde{\mu}_N}{\lambda_N})^2 - (\frac{\tilde{\mu}_N}{\lambda_N})^2 = 0$を代入した。ただし、後の項は$\mu$と無関係なので$\mathrm{const}$に含めた。

 式の形から、対数をとった1次元ガウス分布なのが分かるので

$$ \begin{align} \mu_N &= \frac{\tilde{\mu}_N}{\lambda_N} \\ &= \frac{ \lambda_0 \mu_0 + N \bar{x} }{ \lambda_0 + N } \tag{10.26} \end{align} $$

とおき

$$ \ln q_{\mu}^{*}(\mu) = - \frac{\lambda_N}{2} (\mu - \mu_N)^2 + \mathrm{const} = \ln \mathcal{N}(\mu | \mu_N, \lambda_N^{-1}) $$

さらに、$\ln$を外して$\mathrm{const}$を正規化項に置き換える(正規化する)と、平均$\mu_N$、精度$\lambda_N$の1次元ガウス分布となる。

$$ q_{\mu}^{*}(\mu) = \Bigl( \frac{\lambda_N}{2 \pi} \Bigr)^{\frac{1}{2}} \exp \left\{ - \frac{\lambda_N}{2} (\mu - \mu_N)^2 \right\} = \mathcal{N}(\mu | \mu_N, \lambda_N^{-1}) $$

 最適解$q_{\mu}^{*}(\mu)$が得られた。また、式(10.26)(10.27)が超パラメータの更新式である。

・精度パラメータの近似事後分布の導出

 同様に、下界$\mathcal{L}(q(\mu, \tau))$を最大化する精度パラメータ$\tau$の近似分布$q_{\tau}(\tau)$を求めていく。

 式(1)を$q_{\tau}(\tau)$に関して整理する。

$$ \begin{align} \mathcal{L}(q(\mu, \tau)) &= \int q_{\tau}(\tau) \left\{ \int q_{\mu}(\mu) \ln p(\mathcal{D}, \mu, \tau) d\mu \right\} d\tau - \int q_{\tau}(\tau) \ln q_{\tau}(\tau) d\tau + \mathrm{const} \tag{1'}\\ &= \int q_{\tau}(\tau) \mathbb{E}_{q_{\mu}(\mu)} \Bigl[ \ln p(\mathcal{D}, \mu, \tau) \Bigr] d\tau - \int q_{\tau}(\tau) \ln q_{\tau}(\tau) d\tau + \mathrm{const} \end{align} $$

 1つ目の因子の$\mu$に関する積分(期待値)計算を行い、$\tau$に影響しない2つ目の因子を$\mathrm{const}$とおいた。
 その期待値の項を

$$ \ln \tilde{p}_{\tau}(\mathcal{D}, \tau) = \mathbb{E}_{q_{\mu}(\mu)} \Bigl[ \ln p(\mathcal{D}, \mu, \tau) \Bigr] + \mathrm{const} $$

とおく。この$\mathrm{const}$は、$\tilde{p}_{\tau}(\mathcal{D}, \tau)$を確率分布とするための正規化項である。

$$ \begin{aligned} \mathcal{L}(q(\mu, \tau)) &= \int q_{\tau}(\tau) \ln \tilde{p}_{\tau}(\mathcal{D}, \tau) d\tau - \int q_{\tau}(\tau) \ln q_{\tau}(\tau) d\tau + \mathrm{const} \\ &= \int q_{\tau}(\tau) \Bigl\{ \ln \tilde{p}_{\tau}(\mathcal{D}, \tau) - \ln q_{\tau}(\tau) \Bigr\} d\tau + \mathrm{const} \\ &= \int q_{\tau}(\tau) \ln \frac{ \tilde{p}_{\tau}(\mathcal{D}, \tau) }{ q_{\tau}(\tau) } d\tau + \mathrm{const} \\ &= - \mathrm{KL}(q_{\tau} \| \tilde{p}_{\tau}) + \mathrm{const} \end{aligned} $$

 $\mathcal{L}(q(\mu, \tau))$は、$q_{\tau}(\tau)$と$\tilde{p}_{\tau}(\mathcal{D}, \mu)$の負のカルバック-ライブラーダイバージェンスになるのが分かる。
 つまり、$q_{\tau}(\tau) = \tilde{p}_{\tau}(\mathcal{D}, \tau)$のとき$\mathrm{KL}(q_{\tau} | \tilde{p}_{\tau}) = 0$となり、$\mathcal{L}(q(\mu, \tau))$が最大となる。

 最適化された(下界を最大化する)近似分布を$q_{\tau}^{*}(\tau)$として、$q_{\tau}^{*}(\mu)$の形状を明らかにしていく。観測データとパラメータの同時分布$p(\mathcal{D}, \mu, \tau)$を分解する。

$$ \begin{aligned} q_{\tau}^{*}(\tau) &= \mathbb{E}_{q_{\mu}(\mu)} \Bigl[ \ln p(\mathcal{D}, \mu, \tau) \Bigr] + \mathrm{const} \\ &= \mathbb{E}_{q_{\mu}(\mu)} \Bigl[ \ln \Bigl\{ p(\mathcal{D} | \mu, \tau) p(\mu | \tau) p(\tau) \Bigr\} \Bigr] + \mathrm{const} \\ &= \mathbb{E}_{q_{\mu}(\mu)} \Bigl[ \ln p(\mathcal{D} | \mu, \tau) + \ln p(\mu | \tau) + \ln p(\tau) \Bigr] + \mathrm{const} \end{aligned} $$

 各分布に仮定した具体的な分布を代入して$\tau$に関して式を整理する。

$$ \begin{align} \ln q_{\tau}^{*}(\tau) &= \mathbb{E}_{g_{\mu}(\mu)} \Bigl[ \ln p(\mathcal{D} | \mu, \tau) + \ln p(\mu | \tau) \Bigr] + \ln p(\tau) + \mathrm{const} \\ &= \mathbb{E}_{g_{\mu}(\mu)} \Bigl[ \ln \mathcal{N}(\mathcal{D} | \mu, \tau^{-1}) + \ln \mathcal{N}(\mu | \mu_0, (\lambda_0 \tau)^{-1}) \Bigr] + \ln \mathrm{Gam}(\tau | a_0, b_0) + \mathrm{const} \\ &= \mathbb{E}_{g_{\mu}(\mu)} \left[ \frac{N}{2} ( \ln \tau - \ln 2 \pi ) - \frac{\tau}{2} \sum_{n=1}^N (x_n - \mu)^2 + \frac{1}{2} ( \ln \lambda_0 + \ln \tau - \ln 2 \pi ) - \frac{\lambda_0 \tau}{2} (\mu - \mu_0)^2 \right] \\ &\qquad + \ln \frac{b_0^{a_0}}{\Gamma(a_0)} + (a_0 - 1) \ln \tau - b_0 \tau + \mathrm{const} \\ &= \frac{N}{2} \ln \tau + \frac{1}{2} \ln \tau - \frac{\tau}{2} \mathbb{E}_{g_{\mu}(\mu)} \left[ \sum_{n=1}^N (x_n - \mu)^2 + \lambda_0 (\mu - \mu_0)^2 \right] \\ &\qquad + (a_0 - 1) \ln \tau - b_0 \tau + \mathrm{const} \tag{10.28}\\ &= \left( a_0 + \frac{N + 1}{2} - 1 \right) \ln \tau - \left( b_0 + \frac{1}{2} \mathbb{E}_{g_{\mu}(\mu)} \left[ \sum_{n=1}^N (x_n - \mu)^2 + \lambda_0 (\mu - \mu_0)^2 \right] \right) \tau + \mathrm{const} \end{align} $$

 $\mu$と無関係な項は$\mathbb{E}_{q_{\mu}(\mu)}[\cdot]$の外に出せる。また、$\tau$と無関係な項を適宜$\mathrm{const}$にまとめて、$\ln \tau$と$\tau$の項をそれぞれまとめる。

 式の形から、対数をとったガンマ分布なのが分かるので

$$ \begin{align} a_N &= a_0 + \frac{N + 1}{2} \tag{10.29}\\ b_N &= b_0 + \frac{1}{2} \mathbb{E}_{g_{\mu}(\mu)} \left[ \sum_{n=1}^N (x_n - \mu)^2 + \lambda_0 (\mu - \mu_0)^2 \right] \tag{10.30} \end{align} $$

とおき

$$ \ln q_{\tau}^{*}(\tau) = (a_N - 1) \ln \tau - b_N \tau + \mathrm{const} = \ln \mathrm{Gam}(\tau | a_N, b_N) $$

さらに、$\ln$を外して$\mathrm{const}$を正規化項に置き換える(正規化する)と、パラメータ$a_N,\ b_N$を持つガンマ分布となる。

$$ q_{\tau}^{*}(\tau) = \frac{b_N^{a_N}}{\gamma(a_N)} \tau^{a_N-1} \exp(- b_N \tau) = \mathrm{Gam}(\tau | a_N, b_N) $$

 最適解$q_{\tau}^{*}(\tau)$が得られた。また、式(10.29)(10.30)が超パラメータの更新式である。

・超パラメータの更新式の計算

 最後に、$\mu,\ \tau$の近似事後分布が得られたので、各超パラメータの計算式について確認する。

 $q_{\mu}^{*}(\mu)$の精度パラメータ$\lambda_N$の計算式(10.27)に含まれる$\mathbb{E}_{q_{\tau}(\tau)}[\tau]$を求める。$q_{\tau}^{*}(\tau)$はガンマ分布なので、ガンマ分布の期待値(B.27)より、次の式で計算できる。

$$ \mathbb{E}_{q_{\tau}^{*}(\tau)}[\tau] = \frac{a_N}{b_N} $$


 続いて、$q_{\tau}^{*}(\tau)$のパラメータ$b_N$の計算式(10.30)を展開すると

$$ \begin{align} b_N &= b_0 + \frac{1}{2} \mathbb{E}_{g_{\mu}(\mu)} \left[ \sum_{n=1}^N (x_n - \mu)^2 + \lambda_0 (\mu - \mu_0)^2 \right] \tag{10.30}\\ &= b_0 + \frac{1}{2} \mathbb{E}_{g_{\mu}(\mu)} \left[ \sum_{n=1}^N x_n^2 - 2 \sum_{n=1}^N x_n \mu + N \mu^2 + \lambda_0 \mu^2 - 2 \lambda_0 \mu_0 \mu + \lambda_0 \mu_0^2 \right] \\ &= b_0 + \frac{1}{2} \left( \lambda_0 \mu_0^2 + \sum_{n=1}^N x_n^2 \right) + \frac{\lambda_0 + N}{2} \mathbb{E}_{g_{\mu}(\mu)} [\mu^2] - (\lambda_0 \mu_0 + N \bar{x}) \mathbb{E}_{g_{\mu}(\mu)} [\mu] \end{align} $$

となる。
 この式に含まれる$\mathbb{E}_{g_{\mu}^{*}(\mu)} [\mu],\ \mathbb{E}_{g_{\mu}^{*}(\mu)} [\mu^2]$を求める。$g_{\mu}^{*}(\mu)$はガウス分布なので、ガウス分布の期待値(B.33)と分散(B.34)より、次の式で計算できる。

$$ \begin{aligned} \mathbb{E}_{g_{\mu}^{*}(\mu)} [\mu] &= \mu_N \\ \mathbb{E}_{g_{\mu}^{*}(\mu)} [\mu^2] &= \mu_N^2 + \frac{1}{\lambda_N} \end{aligned} $$

 分散は「2乗の期待値」と「期待値の2乗」の差$\mathrm{var}[x] = \mathbb{E}[x^2] - \mathbb{E}[x]^2$なので、2乗の期待値は$\mathbb{E}[x^2] = \mathrm{var}[\tau] + \mathbb{E}[x]^2$で求められる。

参考文献

  • C.M.ビショップ著,元田 浩・他訳『パターン認識と機械学習 上下』,丸善出版,2012年.

おわりに

 須山ベイズと良い感じに補完し合ってて面白い。そして勉強になる。

【関連する内容】

 解析的に解く(真の事後分布を求める)のはこちらの記事でやりました。

www.anarchive-beta.com