はじめに
『ベイズ推論による機械学習入門』の学習時のノートです。基本的な内容は「数式の行間を読んでみた」とそれを「RとPythonで組んでみた」になります。「数式」と「プログラム」から理解するのが目標です。
この記事は、3.3.1項の内容です。「尤度関数を平均が未知の1次元ガウス分布(正規分布)」、「事前分布を1次元ガウス分布」とした場合の「平均パラメータの事後分布」と「未観測値の予測分布」の計算をR言語で実装します。
省略してある内容等ありますので、本とあわせて読んでください。初学者な自分が理解できるレベルまで落として書き下していますので、分かる人にはかなりくどくなっています。同じような立場の人のお役に立てれば幸いです。
【数式読解編】
【他の節の内容】
【この節の内容】
・Rでやってみよう
人工的に生成したデータを用いて、ベイズ推論を行ってみましょう。
利用するパッケージを読み込みます。
# 3.3.1項で利用するパッケージ library(tidyverse)
・モデルの構築
まずは、モデルを設定します。
尤度(ガウス分布)のパラメータを設定します。
# 真のパラメータwを指定 mu_truth <- 25 lambda <- 0.01
平均パラメータ$\mu$をmu_truth
として値を指定します。これが真のパラメータであり、この値を求めるのがここでの目的です。
精度パラメータ$\lambda$をlambda
として値を指定します。こちらは与えられている値として使います。精度は分散の逆数なので、値が大きいほど散らばり具合が小さくなり、逆数の平方根が標準偏差$\sigma = \sqrt{\lambda^{-1}}$になります。
尤度の確率密度を計算して、作図用のデータフレームを作成します。
# 作図用のxの値を設定 x_line <- seq( mu_truth - 4 * sqrt(1 / lambda), mu_truth + 4 * sqrt(1 / lambda), length.out = 1000 ) # 尤度を計算:式(2.64) model_df <- tibble( x = x_line, # x軸の値 ln_C_N = - 0.5 * (log(2 * pi) - log(lambda)), # 正規化項(対数) density = exp(ln_C_N - 0.5 * lambda * (x - mu_truth)^2), # 確率密度 #density = dnorm(x = x, mean = mu_truth, sd = sqrt(1 / lambda)) # 確率密度 )
作図用に、ガウス分布に従う変数$x_n$がとり得る値をseq()
で作成してx_line
とします。この例では、平均値を中心に標準偏差の4倍を範囲とします。length.out
引数を使うと指定した要素数で等間隔に切り分けます。by
引数を使うと切り分ける間隔を指定できます。処理が重い場合は、この値を調整してください。
x_line
の値ごとに確率密度を計算します。1次元ガウス分布の確率密度は、対数をとった定義式
で計算して、最後にexp()
をします。ガウス分布の確率密度関数dnorm()
でも計算できます。
作成したデータフレームを確認しましょう。
# 確認 head(model_df)
## # A tibble: 6 x 3 ## x ln_C_N density ## <dbl> <dbl> <dbl> ## 1 -15 -3.22 0.0000134 ## 2 -14.9 -3.22 0.0000138 ## 3 -14.8 -3.22 0.0000143 ## 4 -14.8 -3.22 0.0000147 ## 5 -14.7 -3.22 0.0000152 ## 6 -14.6 -3.22 0.0000157
ggplot2
パッケージを利用して作図するには、データフレームを渡す必要があります。
尤度を作図します。
# 尤度を作図 ggplot(model_df, aes(x = x, y = density)) + geom_line(color = "purple") + # 尤度 labs(title = "Gaussian Distribution", subtitle = paste0("mu=", round(mu_truth, 2), ", lamda=", lambda))
真のパラメータを求めることは、この真の分布を求めることを意味します。
・データの生成
続いて、構築したモデルに従って観測データ$\mathbf{X} = \{x_1, x_2, \cdots, x_N\}$を生成します。
ガウス分布に従う$N$個のデータをランダムに生成します。
# (観測)データ数を指定 N <- 50 # ガウス分布に従うデータを生成 x_n <- rnorm(n = N, mean = mu_truth, sd = sqrt(1 / lambda))
生成するデータ数$N$をN
として値を指定します。
ガウス分布に従う乱数は、rnorm()
で生成できます。試行回数の引数n
にN
、平均の引数mean
にmu_truth
、標準偏差の引数sd
にsqrt(1 / lambda)
を指定します。生成したN
個のデータをx_n
とします。
観測したデータを確認しましょう。
# 確認 summary(x_n)
## Min. 1st Qu. Median Mean 3rd Qu. Max. ## 4.182 18.908 26.122 25.560 31.764 45.226
観測データをヒストグラムでも確認します。
# 観測データのヒストグラムを作図 tibble(x = x_n) %>% ggplot(aes(x = x)) + geom_histogram(binwidth = 1) + # 観測データ labs(title = "Gaussian Distribution", subtitle = paste0("N=", N, ", mu=", mu_truth, ", sigma=", round(sqrt(1 / lambda), 1)))
データ数が十分に大きいと、分布の形状が真の分布に近づきます。
・事前分布の設定
次に、尤度に対する共役事前分布を設定します。
$\mu$の事前分布(ガウス分布)のパラメータ(超パラメータ)を設定します。
# muの事前分布のパラメータを指定 m <- 0 lambda_mu <- 0.001
ガウス分布のパラメータ$m,\ \lambda_{\mu}$をそれぞれm, lambda_mu
として値を指定します。
$\mu$の事前分布の確率密度を計算します。
# 作図用のmuの値を設定 mu_line <- seq(mu_truth - 50, mu_truth + 50, length.out = 1000) # muの事前分布を計算:式(2.64) prior_df <- tibble( mu = mu_line, # x軸の値 ln_C_N = - 0.5 * (log(2 * pi) - log(lambda_mu)), # 正規化項(対数) density = exp(ln_C_N - 0.5 * lambda_mu * (mu - m)^2) # 確率密度 #density = dnorm(x = mu, mean = m, sd = sqrt(1 / lambda_mu)) # 確率密度 )
作図用に、ガウス分布に従う変数$\mu$がとり得る値をseq()
で作成してmu_line
とします。この例では、真の値を中心に指定した範囲とします(本当は自動で良い感じの範囲になるようにしたかった)。
尤度のときと同様にして、確率密度を計算します。
計算結果は次のようになります。
# 確認 head(prior_df)
## # A tibble: 6 x 3 ## mu ln_C_N density ## <dbl> <dbl> <dbl> ## 1 -25 -4.37 0.00923 ## 2 -24.9 -4.37 0.00925 ## 3 -24.8 -4.37 0.00928 ## 4 -24.7 -4.37 0.00930 ## 5 -24.6 -4.37 0.00932 ## 6 -24.5 -4.37 0.00934
$\mu$の事前分布を作図します。
# muの事前分布を作図 ggplot(prior_df, aes(x = mu, y = density)) + geom_line(color = "purple") + # muの事前分布 labs(title = "Gaussian Distribution", subtitle = paste0("m=", m, ", lambda_mu=", round(lambda_mu, 2)), x = expression(mu))
・事後分布の計算
観測データ$\mathbf{X}$からパラメータ$\mu$の事後分布を求めます(パラメータ$\mu$を分布推定します)。
観測データx_n
を用いて、$\mu$の事後分布(ガウス分布)のパラメータを計算します。
# muの事後分布のパラメータを計算:式(3.53),(3.54) lambda_mu_hat <- N * lambda + lambda_mu m_hat <- (lambda * sum(x_n) + lambda_mu * m) / lambda_mu_hat
$\mu$の事後分布のパラメータは
で計算して、結果をlambda_mu_hat, m_hat
とします。
# 確認 m_hat; lambda_mu_hat
## [1] 25.50872 ## [1] 0.501
求めたパラメータを使って、$\mu$の事後分布の確率密度を計算します。
# muの事後分布を計算:式(2.56) posterior_df <- tibble( mu = mu_line, # x軸の値 ln_C_N = - 0.5 * (log(2 * pi) - log(lambda_mu_hat)), # 正規化項(対数) density = exp(ln_C_N - 0.5 * lambda_mu_hat * (mu - m_hat)^2) # 確率密度 #density = dnorm(x = mu, mean = m_hat, sd = sqrt(1 / lambda_mu_hat)) # 確率密度 )
更新した超パラメータm_hat, lambda_mu_hat
を用いて、事前分布のときと同様にして計算します。
計算結果は次のようになります。
# 確認 head(posterior_df)
## # A tibble: 6 x 3 ## mu ln_C_N density ## <dbl> <dbl> <dbl> ## 1 -25 -1.26 8.15e-279 ## 2 -24.9 -1.26 1.02e-277 ## 3 -24.8 -1.26 1.28e-276 ## 4 -24.7 -1.26 1.59e-275 ## 5 -24.6 -1.26 1.97e-274 ## 6 -24.5 -1.26 2.42e-273
$\mu$の事後分布を作図します。
# muの事後分布を作図 ggplot(posterior_df, aes(x = mu, y = density)) + geom_line(color = "purple") + # muの事後分布 geom_vline(aes(xintercept = mu_truth), color = "red", linetype = "dashed") + # 真のパラメータ labs(title = "Gaussian Distribution", subtitle = paste0("N=", N, ", m_hat=", round(m_hat, 1), ", lambda_mu_hat=", round(lambda_mu_hat, 2)), x = expression(mu))
パラメータ$\mu$の真の値付近をピークとする分布を推定できています。
・予測分布の計算
最後に、観測データ$\mathbf{X}$から未観測のデータ$x_{*}$の予測分布を求めます。
$\mu$の事後分布のパラメータm_hat, lambda_mu_hat
、または観測データx_n
と$\mu$の事前分布のパラメータm, lambda_mu
を用いて、予測分布(ガウス分布)のパラメータを計算します。
# 予測分布のパラメータを計算:式(3.62') lambda_star_hat <- lambda * lambda_mu_hat / (lambda + lambda_mu_hat) mu_star_hat <- m_hat # 予測分布のパラメータを計算:式(3.62') #lambda_star_hat <- (N * lambda + lambda_mu) * lambda / ((N + 1) * lambda + lambda_mu) #mu_star_hat <- (lambda * sum(x_n) + lambda_mu * m) / (N * lambda + lambda_mu)
予測分布のパラメータは
で計算して、結果をmu_star_hat, lambda_star_hat
とします。
それぞれ上の式だと、事後分布のパラメータlambda_mu_hat, m_hat
を使って計算できます。下の式だと、観測データx_n
と事前分布のパラメータm, lambda_mu
を使って計算できます。
# 確認 mu_star_hat; lambda_star_hat
## [1] 25.50872 ## [1] 0.009804305
$\mathbf{X}$から$\hat{\mu}_{*},\ \hat{\lambda}_{*}$を学習しているのが式からも分かります。
求めたパラメータを使って、予測分布を計算します。
# 予測分布を計算:式(2.64) predict_df <- tibble( x = x_line, # x軸の値 ln_C_N = - 0.5 * (log(2 * pi) - log(lambda_star_hat)), # 正規化項(対数) density = exp(ln_C_N - 0.5 * lambda_star_hat * (x - mu_star_hat)^2) # 確率密度 #density = dnorm(x = x, mean = mu_star_hat, sd = sqrt(1 / lambda_star_hat)) # 確率密度 )
尤度のときと同様に、x_line
の値ごとに確率密度を計算します。
計算結果は次のようになります。
# 確認 head(predict_df)
## # A tibble: 6 x 3 ## x ln_C_N density ## <dbl> <dbl> <dbl> ## 1 -15 -3.23 0.0000127 ## 2 -14.9 -3.23 0.0000131 ## 3 -14.8 -3.23 0.0000135 ## 4 -14.8 -3.23 0.0000139 ## 5 -14.7 -3.23 0.0000144 ## 6 -14.6 -3.23 0.0000149
予測分布を尤度と重ねて作図します。
# 予測分布を作図 ggplot() + geom_line(data = predict_df, aes(x = x, y = density), color = "purple") + # 予測分布 geom_line(data = model_df, aes(x = x, y = density), color = "red", linetype = "dashed") + # 真の分布 labs(title = "Gaussian Distribution", subtitle = paste0("N=", N, ", mu_star_hat=", round(mu_star_hat, 1), ", sigma_star_hat=", round(sqrt(1 / lambda_star_hat), 1)))
観測データが増えると、予測分布が真の分布に近づきます。
・おまけ:アニメーションで推移の確認
gganimate
パッケージを利用して、事後分布と予測分布の推移をアニメーション(gif画像)で確認するためのコードです。
・コード(クリックで展開)
異なる点のみを簡単に解説します。
# 利用するパッケージ library(tidyverse) library(gganimate)
・モデルの設定
# 真のパラメータを指定 mu_truth <- 25 lambda <- 0.01 # muの事前分布のパラメータを指定 m <- 0 lambda_mu <- 0.001 # 作図用のmuの値を設定 mu_line <- seq(mu_truth - 50, mu_truth + 50, length.out = 1000) # muの事前分布(ガウス分布)を計算:式(2.64) posterior_df <- tibble( mu = mu_line, # x軸の値 density = dnorm(x = mu, mean = m, sd = sqrt(1 / lambda_mu)), # 確率密度 label = as.factor( paste0( "N=", 0, ", m=", m, ", lambda_mu=", round(lambda_mu, 2) ) ) # パラメータ ) # 初期値による予測分布のパラメータを計算:式(3.62) lambda_star <- lambda * lambda_mu / (lambda + lambda_mu) mu_star <- m # 作図用のxの値を設定 x_line <- seq( mu_truth - 4 * sqrt(1 / lambda), mu_truth + 4 * sqrt(1 / lambda), length.out = 1000 ) # 初期値による予測分布(ガウス分布)を計算:式(2.64) predict_df <- tibble( x = x_line, # x軸の値 density = dnorm(x = x, mean = mu_star, sd = sqrt(1 / lambda_star)), # 確率密度 label = as.factor( paste0( "N=", 0, ", mu_star=", round(mu_star, 1), ", sigma_star=", round(sqrt(1 / lambda_star), 1) ) ) # パラメータ )
各試行の結果を同じデータフレームに格納していく必要があります。事後分布をposterior_df
、予測分布をpredict_df
として、初期値の結果を持つように作成しておきます。
・推論処理
# データ数(試行回数)を指定 N <- 100 # 観測データの受け皿を初期化 x_n <- rep(0, N) # ベイズ推論 for(n in 1:N){ # ガウス分布に従うデータを生成 x_n[n] <- rnorm(n = 1, mean = mu_truth, sd = sqrt(1 / lambda)) # muの事後分布のパラメータを更新:式(3.53),(3.54) lambda_mu_old <- lambda_mu lambda_mu <- lambda + lambda_mu m <- (lambda * x_n[n] + lambda_mu_old * m) / lambda_mu # muの事後分布(ガウス分布)を計算:式(2.64) tmp_posterior_df <- tibble( mu = mu_line, # x軸の値 density = dnorm(x = mu, mean = m, sd = sqrt(1 / lambda_mu)), # 確率密度 label = as.factor( paste0( "N=", n, ", m_hat=", round(m, 1), ", lambda_mu_hat=", round(lambda_mu, 2) ) ) # パラメータ ) # 予測分布のパラメータを更新:式(3.62) lambda_star <- lambda * lambda_mu / (lambda + lambda_mu) mu_star <- m # 予測分布(ガウス分布)を計算:式(2.64) tmp_predict_df <- tibble( x = x_line, # x軸の値 density = dnorm(x = x, mean = mu_star, sd = sqrt(1 / lambda_star)), # 確率密度 label = as.factor( paste0( "N=", n, ", mu_star_hat=", round(mu_star, 1), ", sigma_star_hat=", round(sqrt(1 / lambda_star), 1) ) ) # パラメータ ) # 推論結果を結合 posterior_df <- rbind(posterior_df, tmp_posterior_df) predict_df <- rbind(predict_df, tmp_predict_df) }
観測された各データによってどのように学習する(分布が変化する)のかを確認するため、for()
で1データずつ処理します。よって、データ数N
がイタレーション数になります。
超パラメータに関して、$\hat{m},\ \hat{\lambda}_{\mu}$に対応するm_hat, lambda_mu_hat
を新たに作るのではなく、m, lambda_mu
をイタレーションごとに更新(上書き)していきます。
それに伴い、事後分布のパラメータの計算式(3.53-54)の$\sum_{n=1}^N x_n$と$N$の計算は、ループ処理によってN回繰り返しx_n[n]
と1
を加えることで行います。n回目のループ処理のときには、n-1回分のx_n[n]
と1
が既にm
とlambda_mu
に加えられているわけです。
・事後分布の推移
# muの事後分布を作図 posterior_graph <- ggplot(posterior_df, aes(x = mu, y = density)) + geom_line(color = "purple") + # muの事後分布 geom_vline(aes(xintercept = mu_truth), color = "red", linetype = "dashed") + # 真のパラメータ gganimate::transition_manual(label) + # フレーム labs(title = "Gaussian Distribution", subtitle = "{current_frame}", x = expression(mu)) # gif画像を出力 gganimate::animate(posterior_graph, nframes = N + 1, fps = 10)
各フレームの順番を示す列(label
)をgganimate::transition_manual()
に指定します。分布の推移と共にパラメータの値を表示するようにlabel
列を作成していますが、ややこしければas.factor(paste0("iter=", n))
として試行回数だけ表示するだけでもそれっぽくなります。
初期値(事前分布)を含むため、フレーム数の引数nframes
はN + 1
です。
・予測分布の推移
# 尤度を計算 model_df <- tibble( x = x_line, # x軸の値 density = dnorm(x, mean = mu_truth, sd = sqrt(1 / lambda)) # 確率密度 ) # 予測分布を作図 predict_graph <- ggplot() + geom_line(data = predict_df, aes(x = x, y = density), color = "purple") + # 予測分布 geom_line(data = model_df, aes(x = x, y = density), color = "red", linetype = "dashed") + # 真の分布 gganimate::transition_manual(label) + # フレーム labs(title = "Gaussian Distribution", subtitle = "{current_frame}") # gif画像を出力 gganimate::animate(predict_graph, nframes = N + 1, fps = 10)
参考文献
- 須山敦志『ベイズ推論による機械学習入門』(機械学習スタートアップシリーズ)杉山将監修,講談社,2017年.
おわりに
- 2021.03.16:加筆修正の際に、数式読解編とRで実装編に記事を分割しました。
推論結果だけでなく何がどうなったかを明確にするためにそれなりに加筆しました。それによって自分の中ではかなり整理できたのですが、その結果文量が多くなってしまって読みにくくなった気がしなくもない。
【次節の内容】