からっぽのしょこ

読んだら書く!書いたら読む!同じ事は二度調べ(たく)ない

【Python】3.4.1:多次元ガウス分布の学習と予測:平均が未知の場合【緑ベイズ入門のノート】

はじめに

 『ベイズ推論による機械学習入門』の学習時のノートです。基本的な内容は「数式の行間を読んでみた」とそれを「RとPythonで組んでみた」になります。「数式」と「プログラム」から理解するのが目標です。

 この記事は、3.4.1項の内容です。「尤度関数を平均が未知の多次元ガウス分布(多変量正規分布)」、「事前分布を多次元ガウス分布」とした場合の「パラメータの事後分布」と「未観測値の予測分布」の計算をPythonで実装します。

 省略してある内容等ありますので、本とあわせて読んでください。初学者な自分が理解できるレベルまで落として書き下していますので、分かる人にはかなりくどくなっています。同じような立場の人のお役に立てれば幸いです。

【数式読解編】

www.anarchive-beta.com

【他の節の内容】

www.anarchive-beta.com

【この節の内容】

・Pythonでやってみよう

 人工的に生成したデータを用いて、ベイズ推論を行ってみましょう。

 利用するライブラリを読み込みます。

# 3.4.1項で利用するライブラリ
import numpy as np
from scipy.stats import multivariate_normal # 多次元ガウス分布
import matplotlib.pyplot as plt

 この例では、SciPyライブラリのstatsから多次元ガウス分布の確率密度関数multivariate_normal.pdf()を使います。

・観測モデルの構築

 まずは、観測モデルを設定します。この例では、尤度$p(\mathbf{X} | \boldsymbol{\mu})$を多次元ガウス分布$\mathcal{N}(\mathbf{x}_n | \boldsymbol{\mu}, \boldsymbol{\Lambda}^{-1})$とします。

 尤度のパラメータを設定します。この実装例では2次元のグラフで表現するため、$D = 2$のときのみ動作します。

# 真のパラメータを指定
mu_truth_d = np.array([25.0, 50.0])
sigma_dd = np.array([[20.0, 15.0], [15.0, 30.0]])
lambda_dd = np.linalg.inv(sigma_dd**2)

 平均パラメータ$\boldsymbol{\mu} = (\mu_1, \cdots, \mu_D)$をmu_truth_dとして値を指定します。この項では未知の値であり、この値を求めるのが目的です。
 分散共分散行列$\boldsymbol{\Sigma} = (\sigma_{1,1}^2, \cdots, \sigma_{D,D}^2)$ではなく、標準偏差$\sigma_{i,i}$と相関係数$\sigma_{i,j}$の行列$(\sigma_{1,1}, \cdots, \sigma_{D,D})$をsigma_ddとして値を指定します。これは作図時に標準偏差を利用するためです。
 sigma_ddから精度パラメータ(精度行列)$\boldsymbol{\Lambda} = \boldsymbol{\Sigma}^{-1}$を計算してlambda_ddとします。逆行列はnp.linalg.inv()で計算します。

 グラフ用の点を作成します。

# 作図用のxの点を作成
x_1_point = np.linspace(
    mu_truth_d[0] - 4 * sigma_dd[0, 0], 
    mu_truth_d[0] + 4 * sigma_dd[0, 0], 
    num=1000
)
x_2_point = np.linspace(
    mu_truth_d[1] - 4 * sigma_dd[1, 1], 
    mu_truth_d[1] + 4 * sigma_dd[1, 1], 
    num=1000
)
x_1_grid, x_2_grid = np.meshgrid(x_1_point, x_2_point)
x_point_arr = np.stack([x_1_grid.flatten(), x_2_grid.flatten()], axis=1)
x_dims = x_1_grid.shape
print(x_dims)
(1000, 1000)

 作図用に、ガウス分布に従う変数$x_{n,1}$がとり得る値(x軸の値)をnp.linspace()で作成してx_1_pointとします。この例では、平均値を中心に標準偏差の4倍を範囲とします。np.linspace()を使うと指定した要素数で等間隔に切り分けます。np.arange()を使うと切り分ける間隔を指定できます。処理が重い場合は、この値を調整してください。
 2次元方向(y軸の値)$x_{n,2}$についても同様に作成してx_2_pointとします。
 x_1_pointx_2_pointの要素の全ての組み合わせを持つ配列をnp.meshgrid()で作成します。これは確率密度を等高線図にする際に、格子状の点(2軸の全ての値が直交する点)を渡す必要があるためです。
 また、その出力を1列に並べたものをnp.stack()で結合してx_point_arrとします。こちらは確率密度の計算に使います。

 尤度の確率密度を計算します。

# 尤度を計算:式(2.72)
true_model = multivariate_normal.pdf(
    x=x_point_arr, mean=mu_truth_d, cov=np.linalg.inv(lambda_dd)
)

 x_point_arrの値(の組み合わせ)ごとに確率密度を計算します。多次元ガウス分布の確率密度は、multivariate_normal.pdf()で計算できます。データの引数xx_point_arr、平均の引数meanmu_truth_d、分散共分散行列の引数covnp.linalg.inv(lambda_dd)を指定します。$\boldsymbol{\Sigma} = \boldsymbol{\Lambda}^{-1}$の計算をして精度行列から分散共分散行列に戻しています。sigma_dd^2を指定することもできます。

 計算結果を確認しましょう。

# 確認
print(x_point_arr)
print(true_model)
[[-55.         -70.        ]
 [-54.83983984 -70.        ]
 [-54.67967968 -70.        ]
 ...
 [104.67967968 170.        ]
 [104.83983984 170.        ]
 [105.         170.        ]]
[2.52911750e-09 2.58863094e-09 2.64934710e-09 ... 2.64934710e-09
 2.58863094e-09 2.52911750e-09]

 true_modelは、x_dimsを使ってx_1_grid, x_2_gridと同じ形状に変換してから作図に使います。

 尤度を作図します。

# 尤度を作図
plt.figure(figsize=(12, 9))
plt.contour(x_1_grid, x_2_grid, true_model.reshape(x_dims)) # 尤度
plt.xlabel('$x_1$')
plt.ylabel('$x_2$')
plt.suptitle('Multivariate Gaussian Distribution', fontsize=20)
plt.title('$\mu=[' + ', '.join([str(mu) for mu in mu_truth_d]) + ']' + 
          ', \Lambda=' + str([list(lmd_d) for lmd_d in np.round(lambda_dd, 5)]) + '$', loc='left')
plt.colorbar()
plt.show()

f:id:anemptyarchive:20210410200047p:plain
尤度:多次元ガウス分布

 plt.contour()で等高線グラフを描画します。格子状の点を渡す必要があります。

 真のパラメータを求めることは、この真の分布を求めることを意味します。

・データの生成

 続いて、構築したモデルに従って観測データ$\mathbf{X} = \{\mathbf{x}_1, \mathbf{x}_2, \cdots, \mathbf{x}_N\}$を生成します。

 多次元ガウス分布に従う$N$個のデータをランダムに生成します。

# (観測)データ数を指定
N = 50

# 多次元ガウス分布に従うデータを生成
x_nd = np.random.multivariate_normal(
    mean=mu_truth_d, cov=np.linalg.inv(lambda_dd), size=N
)

 生成するデータ数$N$をNとして値を指定します。

 多次元ガウス分布に従う乱数は、np.random.multivariate_normal()で生成できます。試行回数の引数sizeNを指定します。他の引数についてはmultivariate_normal.pdf()と同じです。生成したN個のデータをx_ndとします。

 観測したデータを確認しましょう。

# 確認
print(x_nd[:5])
[[ 41.98785758  27.09175962]
 [ 21.41450192  41.96313828]
 [ 19.46498905  41.1691266 ]
 [-23.22580779  21.98801152]
 [ 43.09699124 -14.3791098 ]]


 観測データの散布図を尤度と重ねて確認します。

# 観測データの散布図を作成
plt.figure(figsize=(12, 9))
plt.scatter(x=x_nd[:, 0], y=x_nd[:, 1]) # 観測データ
plt.contour(x_1_grid, x_2_grid, true_model.reshape(x_dims)) # 尤度
plt.xlabel('$x_1$')
plt.ylabel('$x_2$')
plt.suptitle('Multivariate Gaussian Distribution', fontsize=20)
plt.title('$N=' + str(N) + ', \mu=[' + ', '.join([str(mu) for mu in mu_truth_d]) + ']' + 
          ', \Sigma=' + str([list(lmd_d) for lmd_d in np.round(np.sqrt(np.linalg.inv(lambda_dd)), 1)]) + 
          '$', loc='left')
plt.colorbar()
plt.show()

f:id:anemptyarchive:20210410200110p:plain
観測データの散布図:多次元ガウス分布

 plt.scatter()で散布図を描画します。(なぜか$\Sigma_{\mu}$と表示されていますが$\Sigma$です。コードは直しましたが、画像の差し替えは非常に面倒なので見逃してください。)

・事前分布の設定

 次に、尤度に対する共役事前分布を設定します。多次元ガウス分布の平均パラメータ$\boldsymbol{\mu}$に対する事前分布$p(\boldsymbol{\mu})$として、多次元ガウス分布$\mathcal{N}(\boldsymbol{\mu} | \mathbf{m}, \boldsymbol{\Lambda}_{\boldsymbol{\mu}}^{-1})$を設定します。

 $\boldsymbol{\mu}$の事前分布のパラメータ(超パラメータ)を設定します。

# muの事前分布のパラメータを指定
m_d = np.array([0.0, 0.0])
sigma_mu_dd = np.array([[100.0, 0.0], [0.0, 100.0]])
lambda_mu_dd = np.linalg.inv(sigma_mu_dd**2)

 多次元ガウス分布の平均パラメータ$\mathbf{m} = (m_1, \cdots, m_D)$をm_d、精度パラメータ$\boldsymbol{\Lambda}_{\boldsymbol{\mu}} = (\lambda_{1,1}, \cdots, \lambda_{D,D})$をlambda_mu_ddとして、尤度と同様に値を指定します。

 $\boldsymbol{\mu}$の事前分布の確率密度を計算します。

# 作図用のmuの点を作成
mu_1_point = np.linspace(mu_truth_d[0] - 100.0, mu_truth_d[0] + 100.0, num=1000)
mu_2_point = np.linspace(mu_truth_d[1] - 100.0, mu_truth_d[1] + 100.0, num=1000)
mu_1_grid, mu_2_grid = np.meshgrid(mu_1_point, mu_2_point)
mu_point_arr = np.stack([mu_1_grid.flatten(), mu_2_grid.flatten()], axis=1)
mu_dims = mu_1_grid.shape
print(mu_dims)

# muの事前分布を計算:式(2.72)
prior = multivariate_normal.pdf(
    x=mu_point_arr, mean=m_d, cov=np.linalg.inv(lambda_mu_dd)
)
(1000, 1000)

 尤度のときと同様に、多次元ガウス分布に従う変数$\boldsymbol{\mu}$がとり得る値を作成してmu_point_arrとします。この例では、真の値を中心に指定した範囲とします(本当は自動で良い感じの範囲になるようにしたかった)。

 尤度のときと同様にして、確率密度を計算します。

 計算結果は次のようになります。

# 確認
print(mu_point_arr)
print(prior)
[[-75.        -50.       ]
 [-74.7997998 -50.       ]
 [-74.5995996 -50.       ]
 ...
 [124.5995996 150.       ]
 [124.7997998 150.       ]
 [125.        150.       ]]
[1.06020048e-05 1.06179145e-05 1.06338053e-05 ... 2.37747764e-06
 2.37154969e-06 2.36562704e-06]


 $\boldsymbol{\mu}$の事前分布を作図します。

# muの事前分布を作図
plt.figure(figsize=(12, 9))
plt.contour(mu_1_grid, mu_2_grid, prior.reshape(mu_dims)) # muの事前分布
plt.scatter(x=mu_truth_d[0], y=mu_truth_d[1], color='red', s=100, marker='x') # 真のmu
plt.xlabel('$\mu_1$')
plt.ylabel('$\mu_2$')
plt.suptitle('Multivariate Gaussian Distribution', fontsize=20)
plt.title('$m=[' + ', '.join([str(m) for m in m_d]) + ']' + 
          ', \Lambda_{\mu}=' + str([list(lmd_d) for lmd_d in np.round(lambda_mu_dd, 5)]) + 
          '$', loc='left')
plt.colorbar()
plt.show()

f:id:anemptyarchive:20210410200138p:plain
事前分布:多次元ガウス分布

 $\boldsymbol{\mu}$の真の値を確率密度のグラフと重ねて表示します。

・事後分布の計算

 観測データ$\mathbf{X}$から平均パラメータ$\boldsymbol{\mu}$の事後分布$p(\boldsymbol{\mu} | \mathbf{X})$を求めます(平均パラメータ$\boldsymbol{\mu}$を分布推定します)。事後分布は多次元ガウス分布$\mathcal{N}(\boldsymbol{\mu} | \hat{\mathbf{m}}, \hat{\boldsymbol{\Lambda}}_{\boldsymbol{\mu}}^{-1})$になります。

 観測データx_ndを用いて、$\boldsymbol{\mu}$の事後分布のパラメータを計算します。

# muの事後分布のパラメータを計算:式(3.102),(3.103)
lambda_mu_hat_dd = N * lambda_dd + lambda_mu_dd
term_x_d = np.dot(lambda_dd, np.sum(x_nd, axis=0))
term_m_d = np.dot(lambda_mu_dd, m_d)
m_hat_d = np.dot(np.linalg.inv(lambda_mu_hat_dd), (term_x_d + term_m_d))

 事後分布のパラメータを

$$ \begin{align} \hat{\boldsymbol{\Lambda}}_{\boldsymbol{\mu}} &= N \boldsymbol{\Lambda} + \boldsymbol{\Lambda}_{\boldsymbol{\mu}} \tag{3.102}\\ \hat{\mathbf{m}} &= \hat{\boldsymbol{\Lambda}}_{\boldsymbol{\mu}}^{-1} \left( \boldsymbol{\Lambda} \sum_{n=1}^N \mathbf{x}_n + \boldsymbol{\Lambda}_{\boldsymbol{\mu}} \mathbf{m} \right) \tag{3.103} \end{align} $$

で計算して、結果をlambda_mu_hat_ddm_hat_dとします。

# 確認
print(lambda_mu_dd)
print(m_hat_d)
[[0.0001 0.    ]
 [0.     0.0001]]
[22.56028504 54.07307478]


 求めたパラメータを用いて、$\boldsymbol{\mu}$の事後分布の確率密度を計算します。

# muの事後分布を計算:式(2.72)
posterior = multivariate_normal.pdf(
    x=mu_point_arr, mean=m_hat_d, cov=np.linalg.inv(lambda_mu_hat_dd)
)

 更新した超パラメータm_hat_d, lambda_mu_hat_ddを用いて、事前分布のときと同様にして計算します。

 計算結果は次のようになります。

# 確認
print(posterior)
[2.44863552e-295 1.96459807e-294 1.56707462e-293 ... 1.87373909e-306
 1.92037829e-307 1.95672977e-308]


 $\boldsymbol{\mu}$の事後分布を作図します。

# muの事後分布を作図
plt.figure(figsize=(12, 9))
plt.contour(mu_1_grid, mu_2_grid, posterior.reshape(mu_dims)) # muの事後分布
plt.scatter(x=mu_truth_d[0], y=mu_truth_d[1], color='red', s=100, marker='x') # 真のmu
plt.xlabel('$\mu_1$')
plt.ylabel('$\mu_2$')
plt.suptitle('Multivariate Gaussian Distribution', fontsize=20)
plt.title('$N=' + str(N) + ', \hat{m}=[' + ', '.join([str(m) for m in np.round(m_hat_d, 1)]) + ']' + 
          ', \hat{\Lambda}_{\mu}=' + str([list(lmd_d) for lmd_d in np.round(lambda_mu_hat_dd, 5)]) + 
          '$', loc='left')
plt.colorbar()
plt.show()

f:id:anemptyarchive:20210410200157p:plain
事後分布:多次元ガウス分布

 $\boldsymbol{\mu}$の真の値付近をピークとする分布を推定できています。

 グラフの表示範囲が狭めて確認してみましょう。

# muの事後分布を作図
plt.figure(figsize=(12, 9))
plt.scatter(x=mu_truth_d[0], y=mu_truth_d[1], color='red', s=100, marker='x') # 真のmu
plt.contour(mu_1_grid, mu_2_grid, posterior.reshape(mu_dims))
plt.xlabel('$\mu_1$')
plt.ylabel('$\mu_2$')
plt.suptitle('Multivariate Gaussian Distribution', fontsize=20)
plt.title('$N=' + str(N) + ', \hat{m}=[' + ', '.join([str(m) for m in np.round(m_hat_d, 1)]) + ']' + 
          ', \hat{\Lambda}_{\mu}=' + str([list(lmd_d) for lmd_d in np.round(lambda_mu_hat_dd, 5)]) + 
          '$', loc='left')
plt.xlim((mu_truth_d[0] - 0.5 * sigma_dd[0, 0], mu_truth_d[0] + 0.5 * sigma_dd[0, 0]))
plt.ylim((mu_truth_d[1] - 0.5 * sigma_dd[1, 1], mu_truth_d[1] + 0.5 * sigma_dd[1, 1]))
plt.colorbar()
plt.show()

f:id:anemptyarchive:20210410200208p:plain
事後分布:多次元ガウス分布


・予測分布の計算

 最後に、観測データ$\mathbf{X}$から未観測のデータ$\mathbf{x}_{*}$の予測分布$p(\mathbf{x}_{*} | \mathbf{X})$を求めます。予測分布は多次元ガウス分布$\mathcal{N}(\mathbf{x}_{*} | \hat{\boldsymbol{\mu}}_{*}, \hat{\boldsymbol{\Lambda}}_{*}^{-1})$になります。

 $\boldsymbol{\mu}$の事後分布のパラメータ、または観測データと$\boldsymbol{\mu}$の事前分布のパラメータを用いて、予測分布のパラメータを計算します。

# 予測分布のパラメータを計算:式(3.109'),(3.110')
lambda_star_hat_dd = np.linalg.inv(
    np.linalg.inv(lambda_dd) + np.linalg.inv(lambda_mu_hat_dd)
)
mu_star_hat_d = m_hat_d

 予測分布のパラメータを

$$ \begin{aligned} \hat{\boldsymbol{\Lambda}}_{*} &= ( \boldsymbol{\Lambda}^{-1} + \hat{\boldsymbol{\Lambda}}_{\boldsymbol{\mu}}^{-1} )^{-1} \\ &= \{ \boldsymbol{\Lambda}^{-1} + ( N \boldsymbol{\Lambda} + \boldsymbol{\Lambda}_{\boldsymbol{\mu}} )^{-1} \}^{-1} \\ \hat{\boldsymbol{\mu}}_{*} &= \hat{\mathbf{m}} \\ &= \hat{\boldsymbol{\Lambda}}_{\boldsymbol{\mu}}^{-1} \left( \boldsymbol{\Lambda} \sum_{n=1}^N \mathbf{x}_n + \boldsymbol{\Lambda}_{\boldsymbol{\mu}} \mathbf{m} \right) \end{aligned} $$

で計算して、結果をlambda_star_hat_ddm_star_hat_dとします。

 それぞれ上の式だと、事後分布のパラメータm_hat_d, lambda_mu_hat_ddで計算できます。下の式だと、観測データx_ndと事前分布のパラメータm_d, lambda_mu_ddで計算できます。

# 確認
print(lambda_star_hat_dd)
print(mu_star_hat_d)
[[ 0.00285209 -0.00071301]
 [-0.00071301  0.00126762]]
[22.56028504 54.07307478]

 $\mathbf{X}$から$\hat{\boldsymbol{\mu}}_{*},\ \hat{\boldsymbol{\Lambda}}_{*}$を学習しているのが式からも分かります。

 求めたパラメータを用いて、予測分布の確率密度を計算します。

# 予測分布を計算:式(2.72)
predict = multivariate_normal.pdf(
    x=x_point_arr, mean=mu_star_hat_d, cov=np.linalg.inv(lambda_star_hat_dd)
)

 尤度のときと同様に、x_point_arrの値ごとに確率密度を計算します。

 計算結果は次のようになります。

# 確認
print(predict)
[2.91668486e-09 2.97924893e-09 3.04293239e-09 ... 3.31276903e-09
 3.23320803e-09 3.15532696e-09]


 予測分布を尤度と重ねて作図します。

# 予測分布を作図
plt.figure(figsize=(12, 9))
plt.contour(x_1_grid, x_2_grid, predict.reshape(x_dims)) # 予測分布
plt.contour(x_1_grid, x_2_grid, true_model.reshape(x_dims), 
            alpha=0.5, linestyles='--') # 真の分布
plt.scatter(x=mu_truth_d[0], y=mu_truth_d[1], color='red', s=100, marker='x') # 真のmu
#plt.scatter(x=x_nd[:, 0], y=x_nd[:, 1]) # 観測データ
plt.xlabel('$x_1$')
plt.ylabel('$x_2$')
plt.suptitle('Multivariate Gaussian Distribution', fontsize=20)
plt.title('$N=' + str(N) + ', \hat{\mu}_{*}=[' + ', '.join([str(mu) for mu in np.round(mu_star_hat_d, 1)]) + ']' + 
          ', \hat{\Lambda}_{*}=' + str([list(lmd_d) for lmd_d in np.round(lambda_star_hat_dd, 5)]) + 
          '$', loc='left')
plt.colorbar()
plt.show()

f:id:anemptyarchive:20210410200230p:plain
予測分布:多次元ガウス分布

 観測データが増えると、予測分布が真の分布に近づきます。

・おまけ:アニメーションで推移の確認

 animationモジュールを利用して、事後分布と予測分布の推移をアニメーション(gif画像)で確認するためのコードです。

・コード(クリックで展開)

 異なる点のみを簡単に解説します。

# 利用するライブラリ
import numpy as np
from scipy.stats import multivariate_normal # 多次元ガウス分布
import matplotlib.pyplot as plt
import matplotlib.animation as animation


・モデルの設定

# 真のパラメータを指定
mu_truth_d = np.array([25.0, 50.0])
sigma_dd = np.array([[20.0, 15.0], [15.0, 30.0]])
lambda_dd = np.linalg.inv(sigma_dd**2)

# muの事前分布のパラメータを指定
m_d = np.array([0.0, 0.0])
sigma_mu_dd = np.array([[100.0, 0.0], [0.0, 100.0]])
lambda_mu_dd = np.linalg.inv(sigma_mu_dd**2)

# 初期値による予測分布のパラメータを計算:式(3.109),(3.110)
lambda_star_dd = np.linalg.inv(
    np.linalg.inv(lambda_dd) + np.linalg.inv(lambda_mu_dd)
)
mu_star_d = m_d


・推論処理

 各試行の結果をリストに格納していく必要があります。$\boldsymbol{\mu}$の事後分布をtrace_posterior、予測分布をtrace_predict、パラメータについてもそれぞれtrace_***として、初期値の結果を持つように作成しておきます。

# データ数(試行回数)を指定
N = 100

# 作図用のmuの点を作成
mu_1_point = np.linspace(mu_truth_d[0] - 100.0, mu_truth_d[0] + 100.0, num=1000)
mu_2_point = np.linspace(mu_truth_d[1] - 100.0, mu_truth_d[1] + 100.0, num=1000)
mu_1_grid, mu_2_grid = np.meshgrid(mu_1_point, mu_2_point)
mu_point_arr = np.stack([mu_1_grid.flatten(), mu_2_grid.flatten()], axis=1)
mu_dims = mu_1_grid.shape

# 作図用のxの点を作成
x_1_point = np.linspace(mu_truth_d[0] - 4 * sigma_dd[0, 0], mu_truth_d[0] + 4 * sigma_dd[0, 0], num=1000)
x_2_point = np.linspace(mu_truth_d[1] - 4 * sigma_dd[1, 1], mu_truth_d[1] + 4 * sigma_dd[1, 1], num=1000)
x_1_grid, x_2_grid = np.meshgrid(x_1_point, x_2_point)
x_point_arr = np.stack([x_1_grid.flatten(), x_2_grid.flatten()], axis=1)
x_dims = x_1_grid.shape

# 推移の記録用の受け皿を初期化
x_nd = np.empty((N, 2))
trace_m = [list(m_d)]
trace_lambda_mu = [[list(lmd_d) for lmd_d in lambda_mu_dd]]
trace_posterior = [
    multivariate_normal.pdf(
        x=mu_point_arr, mean=m_d, cov=np.linalg.inv(lambda_mu_dd)
    )
]
trace_mu_star = [list(mu_star_d)]
trace_lambda_star = [[list(lmd_d) for lmd_d in lambda_star_dd]]
trace_predict = [
    multivariate_normal.pdf(
        x=x_point_arr, mean=mu_star_d, cov=np.linalg.inv(lambda_star_dd)
    )
]

# ベイズ推論
for n in range(N):
    # 多次元ガウス分布に従うデータを生成
    x_nd[n] = np.random.multivariate_normal(
        mean=mu_truth_d, cov=np.linalg.inv(lambda_dd), size=1
    ).flatten()
    
    # muの事後分布のパラメータを更新:式(3.102),(3.102)
    old_lambda_mu_dd = lambda_mu_dd.copy()
    lambda_mu_dd += lambda_dd
    term_m_d = np.dot(lambda_dd, x_nd[n]) + np.dot(old_lambda_mu_dd, m_d)
    m_d = np.dot(np.linalg.inv(lambda_mu_dd), term_m_d)
    
    # muの事後分布(多次元ガウス分布)を計算:式(2.72)
    trace_posterior.append(
        multivariate_normal.pdf(
            x=mu_point_arr, mean=m_d, cov=np.linalg.inv(lambda_mu_dd)
        )
    )
    
    # 予測分布のパラメータを計算:式(3.109),(3.110)
    lambda_star_dd = np.linalg.inv(
        np.linalg.inv(lambda_dd) + np.linalg.inv(lambda_mu_dd)
    )
    mu_star_d = m_d
    
    # 予測分布を計算:式(2.72)
    trace_predict.append(
        multivariate_normal.pdf(
            x=x_point_arr, mean=mu_star_d, cov=np.linalg.inv(lambda_star_dd)
        )
    )
    
    # 超パラメータを記録
    trace_m.append(list(m_d))
    trace_lambda_mu.append([list(lmd_d) for lmd_d in lambda_mu_dd])
    trace_mu_star.append(list(mu_star_d))
    trace_lambda_star.append([list(lmd_d) for lmd_d in lambda_star_dd])
    
    # 動作確認
    #print('n=' + str(n + 1) + ' (' + str(np.round((n + 1) / N * 100, 1)) + '%)')

 観測された各データによってどのように学習する(分布が変化する)のかを確認するため、for文で1データずつ処理します。よって、データ数Nがイタレーション数になります。

 一度の処理で事後分布のパラメータを計算するのではなく、事前分布(1ステップ前の事後分布)に対して繰り返し観測データの情報を与えることでパラメータを更新(上書き)していきます。
 それに伴い、事後分布のパラメータの計算式(3.102-103)の$N$と$\sum_{n=1}^N \mathbf{x}_n$の計算は、ループ処理によって$N$回繰り返し1x_nd[n]を加えることで行います。$n$回目のループ処理のときには、$n-1$回分の1x_nd[n]が既にm_dlambda_mu_ddに加えられているわけです。
 ただし、事後分布のパラメータの計算において、更新前(1ステップ前)のパラメータを使うため、old_lambda_mu_ddとして値を一時的に保存しておきます。

・事後分布の推移

# 画像サイズを指定
fig = plt.figure(figsize=(12, 9))

# 作図処理を関数として定義
def update_posterior_mu(n):
    # 前フレームのグラフを初期化
    plt.cla()
    
    # nフレーム目のmuの事後分布を作図
    plt.contour(mu_1_grid, mu_2_grid, np.array(trace_posterior[n]).reshape(mu_dims)) # muの事後分布
    plt.scatter(x=mu_truth_d[0], y=mu_truth_d[1], color='red', s=100, marker='x') # 真のmu
    plt.xlabel('$\mu_1$')
    plt.ylabel('$\mu_2$')
    plt.suptitle('Multivariate Gaussian Distribution', fontsize=20)
    plt.title('$n=' + str(n) + 
              ', \hat{m}=[' + ', '.join([str(m) for m in np.round(trace_m[n], 1)]) + ']' + 
              ', \hat{\Lambda}_{\mu}=' + str([list(lmd_d) for lmd_d in np.round(trace_lambda_mu[n], 5)]) + 
              '$', loc='left')

# gif画像を作成
posterior_anime = animation.FuncAnimation(fig, update_posterior_mu, frames=N + 1, interval=100)
posterior_anime.save("ch3_4_1_Posterior.gif")

 各フレーム(各試行)におけるパラメータの値をタイトルとして表示しています。ややこしければ、plt.title('n=' + str(n), loc='left')として試行回数だけ表示するだけでもそれっぽくなります。

 初期値(事前分布)を含むため、フレーム数の引数nframesN + 1です。

・予測分布の推移

# 尤度を計算:式(2.72)
true_model = multivariate_normal.pdf(
    x=x_point_arr, mean=mu_truth_d, cov=np.linalg.inv(lambda_dd)
)

# 画像サイズを指定
fig = plt.figure(figsize=(12, 9))

# 作図処理を関数として定義
def update_predict(n):
    # 前フレームのグラフを初期化
    plt.cla()
    
    # nフレーム目の予測分布を作図
    plt.contour(x_1_grid, x_2_grid, np.array(trace_predict[n]).reshape(x_dims)) # 予測分布
    plt.contour(x_1_grid, x_2_grid, true_model.reshape(x_dims), 
                alpha=0.5, linestyles='--') # 真の分布
    plt.scatter(x=x_nd[:n, 0], y=x_nd[:n, 1]) # 観測データ
    plt.scatter(x=mu_truth_d[0], y=mu_truth_d[1], color='red', s=100, marker='x') # 真のmu
    plt.xlabel('$x_1$')
    plt.ylabel('$x_2$')
    plt.suptitle('Multivariate Gaussian Distribution', fontsize=20)
    plt.title('$N=' + str(n) + 
              ', \hat{\mu}_{*}=[' + ', '.join([str(mu) for mu in np.round(trace_mu_star[n], 1)]) + ']' + 
              ', \hat{\Lambda}_{*}=' + str([list(lmd_d) for lmd_d in np.round(trace_lambda_star[n], 5)]) + 
              '$', loc='left')

# gif画像を作成
predict_anime = animation.FuncAnimation(fig, update_predict, frames=N + 1, interval=100)
predict_anime.save("ch3_4_1_Predict.gif")

 (よく理解していないので、animationの解説は省略…とりあえずこれで動きます……)


f:id:anemptyarchive:20210410200928g:plain
事後分布の推移:多次元ガウス分布

f:id:anemptyarchive:20210410201023g:plain
予測分布の推移:多次元ガウス分布

 新たなデータによって平均(分布の中心)が推移しているのを確認できます。

参考文献

  • 須山敦志『ベイズ推論による機械学習入門』(機械学習スタートアップシリーズ)杉山将監修,講談社,2017年.

おわりに

 Pythonにもかなり慣れてきたので、そろそろNumPyとMatplotlibのpyplot以外のライブラリ?モジュール?にも触ってみたい。

【次節の内容】

明日更新予定!