はじめに

　『ベイズ推論による機械学習入門』(MLSシリーズ)の独学時のノートです。各種のモデルやアルゴリズムについて「数式・プログラム・図」を用いて解説します。
　本の補助として読んでください。

　この記事では、ベルヌーイ分布に対するベイズ推論の数式の行間を埋めます。

【前節の内容】

www.anarchive-beta.com

【他の節の内容】

www.anarchive-beta.com

【この節の内容】

はじめに
3.2.1 ベルヌーイ分布のベイズ推論の導出
- 事後分布の導出
- 予測分布の導出
  - 事前分布による予測分布
  - 事後分布による予測分布
参考文献
おわりに

3.2.1 ベルヌーイ分布のベイズ推論の導出

　ベルヌーイモデル(Bernoulli model)に対するベイズ推論(Bayesian inference)を導出する。ベルヌーイモデルでは、尤度関数をベルヌーイ分布(Bernoulli distribution)、事前分布をベータ分布(Beta distribution)とする。
　ベルヌーイモデルについては「3.2.1：ベルヌーイモデルの生成モデルの導出【緑ベイズ入門のノート】 - からっぽのしょこ」、ベルヌーイ分布については「ベルヌーイ分布の定義式 - からっぽのしょこ」を参照のこと。

事後分布の導出

　まずは、ベルヌーイ分布のパラメータ $\mu$ の事後分布(posterior distribution)を導出する。
　ベータ分布については「ベータ分布の定義式 - からっぽのしょこ」を参照のこと。

　観測データ $\mathbf{X}$ が与えられた(条件とする)下でのパラメータ $\mu$ の条件付き分布(事後分布)を求める。

$\displaystyle \begin{align} p(\mu \mid \mathbf{X}, a, b) &= \frac{ p(\mathbf{X} \mid \mu) p(\mu \mid a, b) }{ p(\mathbf{X} \mid a, b) } \\ &\propto p(\mathbf{X} \mid \mu) p(\mu \mid a, b) \\ &= \left\{ \prod_{n=1}^N p(x_n \mid \mu) \right\} p(\mu \mid a, b) \\ &= \left\{ \prod_{n=1}^N \mathrm{Bern}(x_n \mid \mu) \right\} \mathrm{Beta}(\mu \mid a, b) \tag{3.12} \end{align}$

途中式の途中式(クリックで展開)

1: ベイズの定理 $p(y \mid x) = \frac{p(x \mid y) p(y)}{p(x)}$ より、観測変数 $\mathbf{X}$ を条件に移した式を立てる。

　事後分布は、 $\mathbf{X}, \mu$ の結合分布と $\mathbf{X}$ の周辺分布を用いて、次のようにも求められる。

$\displaystyle \begin{aligned} p(\mu \mid \mathbf{X}, a, b) &= \frac{ p(\mathbf{X}, \mu \mid a, b) }{ p(\mathbf{X} \mid a, b) } \\ &= \frac{ p(\mathbf{X}, \mu \mid a, b) }{ \int p(\mathbf{X}, \mu \mid a, b) \mathrm{d} \mu } \\ &= \frac{ p(\mathbf{X} \mid \mu) p(\mu \mid a, b) }{ \int p(\mathbf{X} \mid \mu) p(\mu \mid a, b) \mathrm{d} \mu } \end{aligned}$

　1行目では、条件付き分布 $p(y \mid x) = \frac{p(x, y)}{p(x)}$ より、 $\mathbf{X}$ を条件に移している。
　2行目では、周辺化 $p(y) = \int p(x, y) \mathrm{d} x$ した $\mu$ を明示している。
　3行目では、 $\mathbf{X}, \mu$ の依存関係に従い項を分割している。
　生成モデル(結合分布)については「生成モデルの導出」を参照のこと。

2: $\mu$ と無関係な項を省く。
3: 観測データ集合 $\mathbf{X}$ の生成確率を、各データ $x_n$ の生成確率の積に分解する。
4: ベルヌーイモデルの定義より、尤度関数をベルヌーイ分布、事前分布をベータ分布に置き換える。

　周辺分布(分母)は $\mu$ に影響しないため省いて、比例関係のみに注目する。省略した項については、最後に正規化することで対応できる。

　両辺の対数をとり、指数部分の計算を分かりやすくして、 $\mu$ に関して式を整理する。

$\displaystyle \begin{align} \ln p(\mu \mid \mathbf{X}, a, b) &= \ln \Bigl( \frac{ \left\{ \prod_{n=1}^N p(x_n \mid \mu) \right\} p(\mu \mid a, b) }{ p(\mathbf{X} \mid a, b) } \Bigr) \\ &= \ln \Bigl( \prod_{n=1}^N p(x_n \mid \mu) \Bigr) + \ln p(\mu \mid a, b) - \ln p(\mathbf{X} \mid a, b) \\ &= \sum_{n=1}^N \ln p(x_n \mid \mu) + \ln p(\mu \mid a, b) + \mathrm{const.} \\ &= \sum_{n=1}^N \ln \mathrm{Bern}(x_n \mid \mu) + \ln \mathrm{Beta}(\mu \mid a, b) + \mathrm{const.} \end{align}$

途中式の途中式(クリックで展開)

1: 式(3.12)に関して、対数をとった式を立てる。
2-3: 自然対数の性質 $\ln(x y) = \ln x + \ln y$ 、 $\ln \frac{x}{y} = \ln x - \ln y$ より、分数の項を展開する。

　対数の性質より、総乗 $\prod_n$ の対数をとると、対数の総和 $\sum_n$ になる。

$\displaystyle \begin{aligned} \ln p(\mathbf{X} \mid \mu) &= \ln \Bigl( \prod_{n=1}^N p(x_n \mid \mu) \Bigr) \\ &= \ln \Bigl( p(x_1 \mid \mu) * p(x_2 \mid \mu) * \cdots * p(x_N \mid \mu) \Bigr) \\ &= \ln p(x_1 \mid \mu) + \ln p(x_2 \mid \mu) + \cdots + \ln p(x_N \mid \mu) \\ &= \sum_{n=1}^N \ln p(x_n \mid \mu) \end{aligned}$

3: $\mu$ と無関係な項を $\mathrm{const.}$ とおく。
4: ベルヌーイモデルの定義より、尤度関数をベルヌーイ分布、事前分布をベータ分布に置き換える。

　 $\mu$ に影響しない項を $\mathrm{const.}$ とおく。省略した項については、最後に正規化することで対応できる。

　右辺の各分布に具体的な式を代入して、式の形状を明らかにしていく。

$\displaystyle \begin{align} \ln p(\mu \mid \mathbf{X}, a, b) &= \sum_{n=1}^N \ln \Bigl( \mu^{x_n} (1 - \mu)^{1-x_n} \Bigr) \\ &\quad + \ln \Bigl( \mathrm{C}_{\mathrm{Beta}}(a, b) \mu^{a-1} (1 - \mu)^{b-1} \Bigr) + \mathrm{const.} \\ &= \sum_{n=1}^N \Bigl\{ x_n \ln \mu + (1 - x_n) \ln (1 - \mu) \Bigr\} \\ &\quad + \ln \mathrm{C}_{\mathrm{Beta}}(a, b) + (a - 1) \ln \mu + (b - 1) \ln (1 - \mu) + \mathrm{const.} \\ &= \sum_{n=1}^N x_n \ln \mu + (a - 1) \ln \mu + \left( N - \sum_{n=1}^N x_n \right) \ln (1 - \mu) + (b - 1) \ln (1 - \mu) + \mathrm{const.} \\ &= \left( \sum_{n=1}^N x_n + a - 1 \right) \ln \mu + \left( N - \sum_{n=1}^N x_n + b - 1 \right) \ln (1 - \mu) + \mathrm{const.} \tag{3.13} \end{align}$

途中式の途中式(クリックで展開)

1: 尤度関数はベルヌーイ分布、事前分布はベータ分布を仮定しているので、それぞれ定義式に置き換える。

$\displaystyle \begin{align} p(x_n \mid \mu) &= \mathrm{Bern}(x_n \mid \mu) \tag{3.10}\\ &= \mu^{x_n} (1 - \mu)^{1-x_n} \\ p(\mu \mid a, b) &= \mathrm{Beta}(\mu \mid a, b) \tag{3.11}\\ &= \mathrm{C}_{\mathrm{Beta}}(a, b) \mu^{a-1} (1 - \mu)^{b-1} \end{align}$

　ここで、 $\mathrm{C}_\mathrm{Beta}(a, b) = \frac{\Gamma(a + b)}{\Gamma(a) \Gamma(b)}$ は、ベータ分布(事前分布)の正規化項である。(式変形に影響しないので簡易的に表記している。)

2: 自然対数の性質 $\ln(x y) = \ln x + \ln y$ 、 $\ln x^y = y \ln x$ より、定義式の項を展開する。
3: $n$ に関する総和 $\sum_n$ の波括弧を展開する。 $n$ と無関係な項は $N$ 倍 $\sum_{n=1}^N 1 = N$ となる。
4: $\mu, 1-\mu$ の項をそれぞれまとめる。

　適宜、 $\mu$ に影響しない項を $\mathrm{const.}$ にまとめている。

　事後分布の式(3.13)について、次のようにおく。

$\displaystyle \begin{aligned} \hat{a} &= \sum_{n=1}^N x_n + a \\ \hat{b} &= N - \sum_{n=1}^N x_n + b \end{aligned} \tag{3.15}$

　式(3.13)について、 $\hat{a}, \hat{b}$ で置き換える。

$\displaystyle \ln p(\mu \mid \mathbf{X}, a, b) = (\hat{a} - 1) \ln \mu + (\hat{b} - 1) \ln (1 - \mu) + \mathrm{const.}$

　さらに、 $\ln$ を外して $\mathrm{const.}$ を正規化項に置き換える(正規化する)と、事後分布は式の形状から、パラメータ $\hat{a}, \hat{b}$ のベータ分布であることが分かる。

$\displaystyle \begin{align} p(\mu \mid \mathbf{X}, a, b) &= \mathrm{C}_{\mathrm{Beta}}(\hat{a}, \hat{b}) \mu^{\hat{a} - 1} (1 - \mu)^{\hat{b} - 1} \\ &= \frac{\Gamma(\hat{a} + \hat{b})}{\Gamma(\hat{a}) \Gamma(\hat{b})} \mu^{\hat{a} - 1} (1 - \mu)^{\hat{b} - 1} \\ &= \mathrm{Beta}(\mu \mid \hat{a}, \hat{b}) \tag{3.14} \end{align}$

　 $\mu$ の事後分布の式が得られた。
　ここで、 $\mathrm{C}_\mathrm{Beta}(\hat{a}, \hat{b})$ は、ベータ分布(事後分布)の正規化項である。
　また、式(3.15)が、事後分布のパラメータ(超パラメータ) $\hat{a}, \hat{b}$ の計算式(更新式)である。

　以上で、ベルヌーイモデルにおける事後分布を導出した。

スポンサードリンク

予測分布の導出

　次は、ベルヌーイ分布に従う未観測データ $x_{*}$ の予測分布(predict distribution)を導出する。

事前分布による予測分布

　事前分布(観測データによる学習を行っていない $\mu$ の分布)を用いた予測分布(事前予測分布)を求める。

$\displaystyle \begin{aligned} p(x_{*} \mid a, b) &= \int p(x_{*}, \mu \mid a, b) \mathrm{d} \mu \\ &= \int p(x_{*} \mid \mu) p(\mu \mid a, b) \mathrm{d} \mu \\ &= \int \mathrm{Bern}(x_{*} \mid \mu) \mathrm{Beta}(\mu \mid a, b) \mathrm{d} \mu \end{aligned}$

途中式の途中式(クリックで展開)

1: 未知変数 $x_{*}$ とパラメータ $\mu$ の結合分布に対して、 $\mu$ を周辺化した式を立てる。
2: 依存関係のある $x_{*}, \mu$ の項を分割する。
3: ベルヌーイモデルの定義より、尤度関数をベルヌーイ分布、事前分布をベータ分布に置き換える。

　事前予測分布は、未知のデータ $x_{*}$ の生成分布(3.10)と、パラメータ $\mu$ の事前分布(3.11)を用いた、 $x_{*}$ の周辺分布である。

　右辺の各分布について具体的な式を代入して、式の形状を明らかにしていく。

$\displaystyle \begin{align} p(x_{*} \mid a, b) &= \int \mu^{x_{*}} (1 - \mu)^{1-x_{*}} \mathrm{C}_{\mathrm{Beta}}(a, b) \mu^{a-1} (1 - \mu)^{b-1} \mathrm{d} \mu \\ &= \mathrm{C}_{\mathrm{Beta}}(a, b) \int \mu^{x_{*}} \mu^{a-1} (1 - \mu)^{1-x_{*}} (1 - \mu)^{b-1} \mathrm{d} \mu \\ &= \mathrm{C}_{\mathrm{Beta}}(a, b) \int \mu^{x_{*} + a-1} (1 - \mu)^{1-x_{*} + b-1} \mathrm{d} \mu \tag{3.16} \end{align}$

途中式の途中式(クリックで展開)

1: 尤度関数はベルヌーイ分布、事前分布はベータ分布を仮定しているので、それぞれ定義式に置き換える。

$\displaystyle \begin{align} p(x_{*} \mid \mu) &= \mathrm{Bern}(x_{*} \mid \mu) \tag{3.10}\\ &= \mu^{x_{*}} (1 - \mu)^{1-x_{*}} \\ p(\mu \mid a, b) &= \mathrm{Beta}(\mu \mid a, b) \tag{3.11}\\ &= \mathrm{C}_{\mathrm{Beta}}(a, b) \mu^{a-1} (1 - \mu)^{b-1} \end{align}$

2: $\mu$ と無関係な項を $\int \mathrm{d} \mu$ の外に出す。
3: 指数の性質 $x^{a+b} = x^a x^b$ より、 $\mu, 1-\mu$ の項をそれぞれまとめる。

　 $\mu$ に関する積分の項に注目すると、パラメータ $x_{*} + a, 1-x_{*} + b$ の正規化項のないベータ分布の形をしている。
　この積分の項は、ベータ分布の正規化項の逆数

$\displaystyle \int \mu^{x_{*} + a-1} (1 - \mu)^{1-x_{*} + b-1} \mathrm{d} \mu = \frac{ 1 }{ \mathrm{C}_{\mathrm{Beta}}(x_{*} + a, 1-x_{*} + b) } \tag{3.17}$

に変形できる(そもそも確率分布の関数(正規化項以外)の項を積分した逆数が正規化項である)。
　予測分布の式(3.16)について、正規化項の逆数の式(3.17)で置き換える。

$\displaystyle p(x_{*} \mid a, b) = \frac{ \mathrm{C}_{\mathrm{Beta}}(a, b) }{ \mathrm{C}_{\mathrm{Beta}}(x_{*} + a, 1-x_{*} + b) }$

　右辺の各正規化項について具体的な式を代入して、式の形状を明らかにしていく。

$\displaystyle \begin{align} p(x_{*} \mid a, b) &= \frac{ \Gamma(a + b) }{ \Gamma(a) \Gamma(b) } \frac{ \Gamma(x_{*} + a) \Gamma(1-x_{*} + b) }{ \Gamma(x_{*} + a + 1-x_{*} + b) } \\ &= \frac{ \Gamma(a + b) }{ \Gamma(a) \Gamma(b) } \frac{ \Gamma(x_{*} + a) \Gamma(1-x_{*} + b) }{ \Gamma(a + b + 1) } \\ &= \frac{ \Gamma(a + b) }{ \Gamma(a) \Gamma(b) } \frac{ \Gamma(x_{*} + a) \Gamma(1-x_{*} + b) }{ (a + b) \Gamma(a + b) } \\ &= \frac{1}{\Gamma(a) \Gamma(b)} \frac{ \Gamma(x_{*} + a) \Gamma(1-x_{*} + b) }{ a + b } \tag{3.18} \end{align}$

途中式の途中式(クリックで展開)

1: ベータ分布の正規化項(2.42)より、それぞれ置き換える。
2: 式を整理する。
3: ガンマ関数の性質 $\Gamma(x + 1) = x \Gamma(x)$ より、ガンマ関数の項を分割する。
4: 約分して、式を整理する。

　ベルヌーイ分布の変数 $x_{*}$ は0か1の2値しかとらないため、場合分けしてこの式を整理する。
　 $x_{*} = 1$ のとき、式(3.18)は

$\displaystyle \begin{align} p(x_{*} = 1 \mid a, b) &= \frac{1}{\Gamma(a) \Gamma(b)} \frac{ \Gamma(1 + a) \Gamma(1 - 1 + b) }{ a + b } \tag{3.18'}\\ &= \frac{1}{\Gamma(a) \Gamma(b)} \frac{ a \Gamma(a) \Gamma(b) }{ a + b } \\ &= \frac{a}{a + b} \tag{3.19} \end{align}$

途中式の途中式(クリックで展開)

1: 式(3.18)に $x_{*} = 1$ を代入する。
2: ガンマ関数の性質より、ガンマ関数の項を分割する。
3: 約分して、式を整理する。

となる。また $x_{*} = 0$ のとき、式(3.18)は

$\displaystyle \begin{align} p(x_{*} = 0 \mid a, b) &= \frac{1}{\Gamma(a) \Gamma(b)} \frac{ \Gamma(0 + a) \Gamma(1 - 0 + b) }{ a + b } \tag{3.18'}\\ &= \frac{1}{\Gamma(a) \Gamma(b)} \frac{ \Gamma(a) b \Gamma(b) }{ a + b } \\ &= \frac{b}{a + b} \tag{3.20} \end{align}$

途中式の途中式(クリックで展開)

1: 式(3.18)に $x_{*} = 0$ を代入する。
2: ガンマ関数の性質より、ガンマ関数の項を分割する。
3: 約分して、式を整理する。

となる。
　2値変数 $x_{*}$ を用いて、2つの式(3.19)と式(3.20)をまとめる。

$\displaystyle \begin{align} p(x_{*} \mid a, b) &= \Bigl( \frac{a}{a + b} \Bigr)^{x_{*}} \Bigl( \frac{b}{a + b} \Bigr)^{1-x_{*}} \\ &= \Bigl( \frac{a}{a + b} \Bigr)^{x_{*}} \Bigl( 1 - \frac{a}{a + b} \Bigr)^{1-x_{*}} \tag{1} \end{align}$

途中式の途中式(クリックで展開)

1: 指数の性質 $x^0 = 1$ より、 $x_{*} = 1$ のとき式(3.19)、 $x_{*} = 0$ のとき( $1-x_{*} = 1$ になるので)式(3.20)となるように式を立てる。
2: $\frac{b}{a + b} = \frac{a + b}{a + b} - \frac{a}{a + b}$ より、分数の項の形を揃える。

　 $x_{*} = 0$ のとき前の項が0乗により1となり、 $x_{*} = 1$ のとき後の項が0乗により1となるので、それぞれ式(3.20)と式(3.19)が成り立つ。

　予測分布の式(1)について、次のようにおく。

$\displaystyle \mu_{*} = \frac{a}{a + b} \tag{2}$

　式(1)について、 $\mu_{*}$ で置き換えると、予測分布は式の形状から、パラメータ $\mu_{*}$ のベルヌーイ分布であることが分かる。

$\displaystyle \begin{align} p(x_{*} \mid a, b) &= \mu_{*}^{x_{*}} (1 - \mu_{*})^{1-x_{*}} \\ &= \mathrm{Bern}(x_{*} \mid \mu_{*}) \tag{3.21} \end{align}$

　 $x_{*}$ の事前予測分布の式が得られた。
　また、式(2)が、予測分布のパラメータ $\mu_{*}$ の計算式である。

事後分布による予測分布

　予測分布の計算に事前分布 $p(\mu \mid a, b)$ を用いて、観測データ $\mathbf{X}$ による学習を行っていない予測分布(事前予測分布) $p(x_{*} \mid a, b)$ (のパラメータ $\mu_{*}$ )を求めた。事後分布 $p(\mu \mid \mathbf{X}, a, b)$ を用いると、観測データ $\mathbf{X}$ によって学習した予測分布(事後予測分布) $p(x_{*} \mid \mathbf{X}, a, b)$ (のパラメータ $\hat{\mu}_{*}$ )を求められる。

$\displaystyle \begin{align} p(x_{*} \mid \mathbf{X}, a, b) &= \int p(x_{*}, \mu \mid \mathbf{X}, a, b) \mathrm{d} \mu \\ &= \int p(x_{*} \mid \mu) p(\mu \mid \mathbf{X}, a, b) \mathrm{d} \mu \\ &= \int \mathrm{Bern}(x_{*} \mid \mu) \mathrm{Beta}(\mu \mid \hat{a}, \hat{b}) \mathrm{d} \mu \tag{3.16'} \end{align}$

途中式の途中式(クリックで展開)

1: 観測変数 $\mathbf{X}$ を条件として、未知変数 $x_{*}$ とパラメータ $\mu$ の結合分布に対して、 $\mu$ を周辺化した式を立てる。
2: 依存関係のある $x_{*}, \mu$ の項を分割する。
3: ベルヌーイモデルの定義より、尤度関数をベルヌーイ分布、事後分布をベータ分布に置き換える。

　事後予測分布は、未知のデータ $x_{*}$ の生成分布(3.10)と、パラメータ $\mu$ の事後分布(3.14)を用いた、 $x_{*}$ の周辺分布である。

　事後分布は事前分布と同じくベータ分布なので、事前予測分布の式(3.21)と、同様の手順で事後予測分布の式も求められる。
　そこで、事前予測分布のパラメータ $\mu_{*}$ の式(2)を構成する事前分布のパラメータ $a, b$ について、事後分布のパラメータ $\hat{a}, \hat{b}$ の式(3.15)に置き換えたものを事後予測分布のパラメータ $\hat{\mu}_{*}$ とおく。

$\displaystyle \begin{align} \hat{\mu}_{*} &= \frac{\hat{a}}{\hat{a} + \hat{b}} \tag{2'}\\ &= \frac{ \sum_{n=1}^N x_n + a }{ \sum_{n=1}^N x_n + a + N - \sum_{n=1}^N x_n + b } \\ &= \frac{\sum_{n=1}^N x_n + a}{N + a + b} \end{align}$

　予測分布の式(3.21)についても置き換える(同様の手順で導出する)と、パラメータ $\hat{\mu}_{*}$ のベルヌーイ分布となる。

$\displaystyle \begin{align} p(x_{*} \mid \mathbf{X}, a, b) &= \hat{\mu}_{*}^{x_{*}} (1 - \hat{\mu}_{*})^{1-x_{*}} \\ &= \mathrm{Bern}(x_{*} \mid \hat{\mu}_{*}) \tag{3.22} \end{align}$

　 $x_{*}$ の事後予測分布の式が得られた。
　また、式(2')が、予測分布のパラメータ $\hat{\mu}_{*}$ の計算式(更新式)である。

　ちなみに、事後分布の期待値は $\mathbb{E}_{\mathrm{Beta}(\mu \mid \hat{a}, \hat{b})}[\mu] = \frac{\hat{a}}{\hat{a} + \hat{b}}$ であり、予測分布のパラメータ $\hat{\mu}_{*} = \frac{\hat{a}}{\hat{a} + \hat{b}}$ や、予測分布の期待値 $\mathbb{E}_{\mathrm{Bern}(x \mid \hat{\mu}_{*})}[x_{*}] = \hat{\mu}_{*}$ と一致する。

　 $\mu_{*} = \frac{\hat{a}}{\hat{a} + \hat{b}}$ は成功確率( $x_{*}$ が1となる確率・式(3.19))、 $1-\mu_{*} = \frac{\hat{b}}{\hat{a} + \hat{b}}$ は失敗確率( $x_{*}$ が0となる確率・式(3.20))に対応する。