はじめに

　『ベイズ推論による機械学習入門』(MLSシリーズ)の独学時のノートです。各種のモデルやアルゴリズムについて「数式・プログラム・図」を用いて解説します。
　本の補助として読んでください。

　この記事では、ベルヌーイ分布に対するベイズ推論で登場する数式の行間を埋めます。

【前節の内容】

www.anarchive-beta.com

【他の節の内容】

www.anarchive-beta.com

【この節の内容】

はじめに
3.2.1 ベルヌーイモデルの生成モデルの導出
参考文献
おわりに

3.2.1 ベルヌーイモデルの生成モデルの導出

　ベルヌーイモデル(Bernoulli model)の定義(仮定)を確認する。ベルヌーイモデルでは、生成分布をベルヌーイ分布(Bernoulli distribution)、事前分布をベータ分布(Beta distribution)とする。
　ベルヌーイ分布については「ベルヌーイ分布の定義式 - からっぽのしょこ」、ベータ分布については「ベータ分布の定義式 - からっぽのしょこ」を参照のこと。

生成過程の設定

　まずは、ベルヌーイモデルの生成過程(generative process)を数式で確認する。

　観測データ数を $N$ 、データ番号(インデックス)を $n \in \{1, 2, \dots, N\}$ とする。

　各観測データ $x_n$ は、0か1の2値をとる。

$\displaystyle x_n \in \{0, 1\}$

　 $N$ 個の観測データをまとめて、観測データ集合 $\mathbf{X}$ として扱う。

$\displaystyle \mathbf{X} = \{x_1, x_2, \cdots, x_N\}$

　各観測データ $x_n$ は、パラメータ $\mu$ のベルヌーイ分布に従い独立に生成されるとする。

$\displaystyle \begin{align*} p(x_n \mid \mu) &= \mathrm{Bernoulli}(x_n \mid \mu) \tag{3.10}\\ &= \mu^{x_n} (1 - \mu)^{1-x_n} \\ x_n &\sim \mathrm{Bernoulli}(\mu) \end{align*}$

　 $\mu$ を生成分布のパラメータと呼ぶ。データの生成分布を観測モデルや尤度関数とも呼ぶ。
　 $\mu$ は成功確率パラメータなので、0から1の値を満たす必要がある。

$\displaystyle 0 \leq \mu \leq 1$

　0から1の値を $\mu \in (0, 1)$ とも表記する。
　また、パラメータ $\mu$ は、パラメータ $a, b$ のベータ分布に従い生成されるとする。

$\displaystyle \begin{align*} p(\mu \mid a, b) &= \mathrm{Beta}(\mu \mid a, b) \tag{3.11}\\ &= \frac{\Gamma(a + b)}{\Gamma(a) \Gamma(b)} \mu^{a-1} (1 - \mu)^{b-1} \\ \mu &\sim \mathrm{Beta}(a, b) \end{align*}$

　 $a, b$ を生成分布の超パラメータと呼ぶ。パラメータのパラメータを超パラメータ(ハイパーパラメータ)と言う。
　 $a, b$ は形状パラメータなので、それぞれ正の値を満たす必要がある。

$\displaystyle a \gt 0 ,\ b \gt 0$

　以上で、ベルヌーイモデルの生成過程(定義・仮定)を確認した。生成過程は、変数やパラメータ間の依存関係であり、生成モデルや推論アルゴリズムの導出でも用いる。

スポンサードリンク

尤度関数の導出

　次は、ベルヌーイモデルの尤度関数(likelihood function)を数式で確認する。パラメータが与えられたときのデータの生成確率(観測された全ての変数の同時確率)を尤度と呼ぶ。

　パラメータ $\mu$ が与えられた(条件とする)下での観測データ $\mathbf{X}$ の生成確率は、生成過程(依存関係)に従い次のように変形できる。

$\displaystyle \begin{aligned} p(\mathbf{X} \mid \mu) &= p(x_1, x_2, \cdots, x_N \mid \mu) \\ &= p(x_1 \mid \mu) p(x_2 \mid \mu) \cdots p(x_N \mid \mu) \\ &= \prod_{n=1}^N p(x_n \mid \mu) \end{aligned}$

途中式の途中式(クリックで展開)

$N$ 個のデータは独立に生成されることから、観測データ集合 $\mathbf{X}$ の生成確率は、各データ $x_n$ の生成確率の積に分解できる。

　生成分布(3.10)を用いた式が得られた。

生成モデルの導出

　続いて、ベルヌーイモデルの生成モデル(generative model)を数式で確認する。観測・潜在変数やパラメータを全て確率変数とみなした結合分布(同時分布)を生成モデルと呼ぶ。

　観測変数 $\mathbf{X}$ 、パラメータ $\mu$ 、超パラメータ $a, b$ をそれぞれ確率変数とする結合分布は、生成過程(依存関係)に従い次のように分解できる。

$\displaystyle \begin{aligned} p(\mathbf{X}, \mu, a, b) &= p(\mathbf{X} \mid \mu) p(\mu \mid a, b) p(a) p(b) \\ &= \left\{ \prod_{n=1}^N p(x_n \mid \mu) \right\} p(\mu \mid a, b) p(a) p(b) \end{aligned}$

途中式の途中式(クリックで展開)

　依存関係のない場合は独立性 $p(A, B) = p(A) p(B)$ 、依存関係のある場合は乗法定理 $p(A, B) = p(A \mid B) p(B)$ により、式を変形していく。

1: 変数やパラメータごとの項に分割する。

　依存関係のある(変数・)パラメータと超パラメータの項を分割する。

$\displaystyle p(\mathbf{X}, \mu, a, b) = p(\mathbf{X}, \mu \mid a, b) p(a, b)$

　さらに前の項の、依存関係のある変数 $\mathbf{X}$ とパラメータ $\mu$ の項を分割する。

$\displaystyle \begin{aligned} p(\mathbf{X}, \mu \mid a, b) &= p(\mathbf{X} \mid \mu, a, b) p(\mu \mid a, b) \\ &= p(\mathbf{X} \mid \mu) p(\mu \mid a, b) \end{aligned}$

　 $\mathbf{X}$ と $a, b$ は無関係なので条件から省ける。
　後の項の、独立な超パラメータ $a, b$ の項を分割する。

$\displaystyle p(a, b) = p(a) p(b)$

2: 全データに関する $\mathbf{X}$ の項を、各データに関する $x_n$ の項の積に分解する。

　1データレベルに項を分解した。

　この式自体が変数やパラメータ間の依存関係を表している。

スポンサードリンク

グラフィカルモデルの確認

　最後は、ベルヌーイモデルの生成モデルをグラフィカルモデル表現(graphical model representation)で確認する。グラフィカルモデルについては1.5節を参照のこと。

　ベルヌーイモデルの生成モデルは、次の式に分解できた。

　この式をグラフィカルモデルにすると、次の図になる。

　「 $a \to \mu$ 」と「 $b \to \mu$ 」が、生成分布のパラメータの事前分布 $p(\mu \mid a, b)$ に対応し、事前分布(のパラメータ)に従ってパラメータ $\mu$ が生成されることを示している。
　「 $\mu \to x_n$ 」が、生成分布(のパラメータ)に従って各データ $x_n$ が生成されることを示している。

　「 $N$ 」のプレートが、 $\prod_{n=1}^N$ に対応し、 $N$ 個の観測データ $x_n$ が繰り返し生成されることを示している。

　この記事では、ベルヌーイモデルで用いる記号や定義を確認した。次の記事では、ベルヌーイモデルに対するベイズ推論を導出する。

参考文献

機械学習スタートアップシリーズ　ベイズ推論による機械学習入門

作者:須山敦志
講談社

Amazon

おわりに

　この記事は、(たぶん)5度目の全編加筆修正の際に既存の記事から分割したというか新規の記事として書いたというか、「尤度関数の導出」の内容は「ベルヌーイ分布のベイズ推論の導出」の中で書いており、他の内容は「青トピシリーズ」の構成に合わせて書き足しました。
　「青トピシリーズ」の変分推論編を書き直すための復習としてこの「緑ベイズシリーズ」を書き直すついでに「確率分布シリーズ」も書き直しているところです。どれも終わる気がしません。

　2025年11月11日は、モーニング娘。の16期メンバーの櫻井梨央さんの二十歳のお誕生日です！