はじめに
『パターン認識と機械学習』の独学時のまとめです。一連の記事は「数式の行間埋め」または「R・Pythonでの実装」からアルゴリズムの理解を補助することを目的としています。本とあわせて読んでください。
この記事は、2.4節の始めの内容です。ベルヌーイ分布、カテゴリカル分布、1変数ガウス分布が指数型分布族であることを導出します。
【他の節一覧】
www.anarchive-beta.com
【この節の内容】
2.4.0 指数型分布族
指数型分布族は、$\mathbf{x}$を確率変数、$\boldsymbol{\eta}$をパラメータとして、次の式で定義される分布の集合である。
$$
p(\mathbf{x} | \boldsymbol{\mu})
= h(\mathbf{x})
g(\boldsymbol{\eta})
\exp\{
\boldsymbol{\eta}^{\top}
\mathbf{u}(\mathbf{x})
\}
\tag{2.194}
$$
ここで$\mathbf{u}(\mathbf{x})$は$\mathbf{x}$の任意の関数、$g(\boldsymbol{\eta})$は正規化項であり
$$
g(\boldsymbol{\eta})
\int
h(\mathbf{x})
\exp\{
\boldsymbol{\eta}^{\top}
\mathbf{u}(\mathbf{x})
\}
d\mathbf{x}
= 1
\tag{2.195}
$$
を満たす。ただし$\mathbf{x}$が離散変数であれば、積分が総和になる。
この項では、ベルヌーイ分布、カテゴリカル分布、ガウス分布が指数型分布族であることを示す。
・ベルヌーイ分布
まずは、ベルヌーイ分布について考える。
$$
p(x | \mu)
= \mathrm{Bern}(x | \mu)
= \mu^x
(1 - \mu)^{1-x}
\tag{2.196}
$$
ここで$x$は二値確率変数$x \in \{0, 1\}$、$\mu$は$x = 1$となる確率を表すパラメータ$0 \leq \mu \leq 1$である。
ベルヌーイ分布の定義式の対数をとり、さらにその指数をとると、$\exp(\ln x) = x$より
$$
\begin{aligned}
p(x | \mu)
&= \exp \Bigl[
\ln\Bigl\{\mu^x (1 - \mu)^{1-x}\Bigr\}
\Bigr]
\\
&= \exp \Bigl\{
x \ln \mu
+ (1 - x) \ln (1 - \mu)
\Bigr\}
\end{aligned}
$$
と変形できる。括弧を展開して、$x$に関して整理すると
$$
\begin{align}
p(x | \mu)
&= \exp \Bigl\{
x \ln \mu
+ \ln (1 - \mu)
- x \ln (1 - \mu)
\Bigr\}
\\
&= (1 - \mu)
\exp \Bigl[
\Bigl\{\ln \mu - \ln (1 - \mu)\Bigr\}
x
\Bigr]
\\
&= (1 - \mu)
\exp \left\{
\ln \Bigl(\frac{\mu}{1 - \mu}\Bigr)
x
\right\}
\tag{2.197}
\end{align}
$$
となる。
この式を指数分布族の標準形(2.194)と対応付けて
$$
\eta
= \ln \left(
\frac{\mu}{1 - \mu}
\right)
\tag{2.198}
$$
とおく。
式(2.198)を$\mu$について解く。両辺の指数をとり
$$
\exp(\eta)
= \frac{\mu}{1 - \mu}
$$
さらに逆数をとると、$\frac{1}{e^{\eta}} = (e^{\eta})^{-1} = e^{-\eta}$より
$$
\begin{aligned}
\exp(-\eta)
&= \frac{1 - \mu}{\mu}
\\
\exp(- \eta)
\mu
&= 1 - \mu
\\
\{1 + \exp(- \eta)\}
\mu
&= 1
\\
\mu
&= \frac{1}{1 + \exp(- \eta)}
\end{aligned}
$$
となる。
右辺の式を$\sigma(\eta)$で表すことにする。
$$
\sigma(\eta)
= \frac{1}{1 + \exp(- \eta)}
\tag{2.199}
$$
これをロジスティックシグモイド関数と呼ぶ。
この式を式(2.197)に代入するために、$1 - \mu = 1 - \sigma(\eta)$を考える。
$$
\begin{aligned}
1 - \sigma(\eta)
&= 1
- \frac{1}{1 + \exp(- \eta)}
\\
&= \frac{1 + \exp(- \eta)}{1 + \exp(- \eta)}
- \frac{1}{1 + \exp(- \eta)}
\\
&= \frac{\exp(- \eta)}{1 + \exp(- \eta)}
\end{aligned}
$$
分母分子に$e^{\eta}$を掛けると、$e^{-\eta} e^{\eta} = e^{-\eta+\eta}$、また$x^0 = 1$より
$$
\begin{aligned}
1 - \sigma(\eta)
&= \frac{1}{\exp(\eta) + 1}
= \sigma(-\eta)
\end{aligned}
$$
となる。
この式と式(2.198)を式(2.197)に代入すると
$$
\begin{align}
p(x | \mu)
&= (1 - \mu)
\exp \left\{
\ln \Bigl(\frac{\mu}{1 - \mu}\Bigr)
x
\right\}
\tag{2.197}\\
&= \sigma(-\eta)
\exp(\eta x)
\end{align}
$$
と変形できるので、次のように対応付けると
$$
\begin{align}
u(x)
&= x
\tag{2.201}\\
h(x)
&= 1
\tag{2.202}\\
g(\eta)
&= \sigma(-\eta)
\tag{2.203}
\end{align}
$$
ベルヌーイ分布が指数型分布族であることを確認できる。
・カテゴリカル分布
次に、カテゴリカル分布($N=1$のときの多項分布)について考える。
$$
p(\mathbf{x} | \boldsymbol{\mu})
= \mathrm{Cat}(\mathbf{x} | \boldsymbol{\mu})
= \prod_{k=1}^M
\mu_k^{x_k}
$$
ここで$\mathbf{x} = (x_1, x_2, \cdots, x_M)^{\top}$は離散確率変数であり、$x_k \in \{0, 1\}$、$\sum_{k=1}^M x_k = 1$である。また$\boldsymbol{\mu} = (\mu_1, \mu_2, \cdots, \mu_M)^{\top}$は、$x_k = 1$となる確率を表すパラメータ$0 \leq \mu_k \leq 1$であり、$\sum_{k=1}^M \mu_k = 1$である。
ベルヌーイ分布のときと同様に、定義式の対数をとり、さらにその指数をとると
$$
\begin{align}
p(\mathbf{x} | \boldsymbol{\mu})
&= \exp \left\{
\ln \Bigl(
\prod_{k=1}^M
\mu_k^{x_k}
\Bigr)
\right\}
\\
&= \exp \left\{
\sum_{k=1}^M
x_k \ln \mu_k
\right\}
\tag{2.204}
\end{align}
$$
と変形できる。
この式について$\eta_k = \ln \mu_k$とおき、$\boldsymbol{\eta} = (\eta_1, \cdots, \eta_M)^{\top}$とすると、括弧内の計算は内積の計算を使って
$$
\boldsymbol{\eta}^{\top}
\mathbf{x}
= \begin{pmatrix}
\eta_1 & \eta_2 & \cdots & \eta_M
\end{pmatrix}
\begin{pmatrix}
x_1 \\ x_2 \\ \vdots \\ x_M
\end{pmatrix}
= \sum_{k=1}^M
x_k \eta_k
$$
と書き換えられるので
$$
p(\mathbf{x} | \boldsymbol{\mu})
= \exp(\boldsymbol{\eta}^{\top} \mathbf{x})
\tag{2.205}
$$
とできる。
この式を指数型分布族の標準形(2.194)と対応付けると
$$
\begin{align}
\mathbf{u}(\mathbf{x})
&= \mathbf{x}
\tag{2.206}\\
h(\mathbf{x})
&= 1
\tag{2.207}\\
g(\boldsymbol{\eta})
&= 1
\tag{2.208}
\end{align}
$$
である。
またパラメータの制約$\sum_{k=1}^M \mu_k = 1$を用いて、別の方法でも示せる。式(2.204)から$\mu_M$に関する項を取り出して
$$
\begin{align}
p(\mathbf{x} | \boldsymbol{\mu})
&= \exp \left\{
\sum_{k=1}^M
x_k \ln \mu_k
\right\}
\tag{2.204}\\
&= \exp \left\{
\sum_{k=1}^{M-1}
x_k \ln \mu_k
+ x_M \ln \mu_M
\right\}
\end{align}
$$
制約より$\mu_M = 1 - \sum_{k=1}^{M-1} \mu_k$、$x_M = 1 - \sum_{k=1}^{M-1} x_k$なので、それぞれ代入すると
$$
p(\mathbf{x} | \boldsymbol{\mu})
= \exp \left\{
\sum_{k=1}^{M-1}
x_k \ln \mu_k
+ \Bigl(1 - \sum_{k=1}^{M-1} x_k \Bigr)
\ln \Bigl(1 - \sum_{k=1}^{M-1} \mu_k \Bigr)
\right\}
$$
と変形できる。括弧を展開して、$\mathbf{x}$に関して整理すると
$$
\begin{align}
p(\mathbf{x} | \boldsymbol{\mu})
&= \exp \left\{
\sum_{k=1}^{M-1}
x_k \ln \mu_k
+ \ln \Bigl(1 - \sum_{k=1}^{M-1} \mu_k \Bigr)
- \Bigl(\sum_{k=1}^{M-1} x_k \Bigr)
\ln \Bigl(1 - \sum_{k=1}^{M-1} \mu_k \Bigr)
\right\}
\\
&= \left(1 - \sum_{k=1}^{M-1} \mu_k \right)
\exp \left[
\sum_{k=1}^{M-1}
x_k \Bigl\{
\ln \mu_k
- \ln \Bigl(1 - \sum_{j=1}^{M-1} \mu_j \Bigr)
\Bigr\}
\right]
\\
&= \left(1 - \sum_{k=1}^{M-1} \mu_k \right)
\exp \left[
\sum_{k=1}^{M-1}
x_k
\ln \Bigl(
\frac{
\mu_k
}{
1 - \sum_{j=1}^{M-1} \mu_j
}
\Bigr)
\right]
\tag{2.211}
\end{align}
$$
となる。
この式を指数分布族の標準形(2.194)と対応付けて
$$
\eta_k
= \ln \left(
\frac{
\mu_k
}{
1 - \sum_{j=1}^{M-1} \mu_j
}
\right)
\tag{2.212}
$$
とおく。
式(2.212)を$\mu$について解く。両辺の指数をとり
$$
\exp(\eta_k)
= \frac{
\mu_k
}{
1 - \sum_{j=1}^{M-1} \mu_j
}
\tag{a}
$$
さらに両辺を$k$に関して1から$M$まで和をとると、$\sum_{k=1}^M \mu_k = 1$なので
$$
\begin{aligned}
\sum_{k=1}^M \exp(\eta_k)
&= \sum_{k=1}^M
\frac{
\mu_k
}{
1 - \sum_{j=1}^{M-1} \mu_j
}
\\
&= \frac{1}{1 - \sum_{j=1}^{M-1} \mu_j}
\end{aligned}
$$
となる。ここで式(a)より$\exp(\eta_M) = \frac{\mu_M}{\mu_M} = 1$なので、左辺の総和から$\exp(\eta_M)$を取り出すと$\sum_{k=1}^M \exp(\eta_k) = 1 + \sum_{k=1}^{M-1} \exp(\eta_k)$である。よって左辺を置き換え
$$
1 + \sum_{k=1}^{M-1} \exp(\eta_k)
= \frac{1}{1 - \sum_{j=1}^{M-1} \mu_j}
$$
両辺の逆数をとると
$$
1 - \sum_{k=1}^{M-1} \mu_k
= \frac{1}{1 + \sum_{k=1}^{M-1} \exp(\eta_k)}
\tag{b}
$$
となる。
式(a)を$\mu_k$に関して整理して、式(b)を代入すると
$$
\begin{align}
\mu_k
&= \exp(\eta_k) \left(
1 - \sum_{j=1}^{M-1} \mu_j
\right)
\\
&= \frac{\exp(\eta_k)}{1 + \sum_{j=1}^{M-1} \exp(\eta_j)}
\tag{2.213}
\end{align}
$$
となる。これをソフトマックス関数または正規化指数関数と呼ぶ。
式(a)と式(b)を式(2.211)に代入すると
$$
\begin{align}
p(\mathbf{x} | \boldsymbol{\mu})
&= \left(1 - \sum_{k=1}^{M-1} \mu_k \right)
\exp \left[
\sum_{k=1}^{M-1}
x_k
\ln \Bigl(
\frac{
\mu_k
}{
1 - \sum_{j=1}^{M-1} \mu_j
}
\Bigr)
\right]
\tag{2.211}\\
&= \Bigl(1 + \sum_{k=1}^{M-1} \exp(\eta_k) \Bigr)^{-1}
\exp \left(
\sum_{k=1}^{M-1}
x_k \ln \eta_k
\right)
\\
&= \Bigl(1 + \sum_{k=1}^{M-1} \exp(\eta_k) \Bigr)^{-1}
\exp(\boldsymbol{\eta}^{\top} \mathbf{x})
\tag{2.214}
\end{align}
$$
となる。ここで$\boldsymbol{\eta} = (\eta_1, \eta_2, \cdots, \eta_{M-1}, 0)^{\top}$とおく。$\exp(\eta_M) = 1$より、$\eta_M = \ln 1 = 0$である。
また次のように対応付けると
$$
\begin{align}
\mathbf{u}(\mathbf{x})
&= \mathbf{x}
\tag{2.215}\\
h(\mathbf{x})
&= 1
\tag{2.216}\\
g(\boldsymbol{\eta})
&= \Bigl(1 + \sum_{k=1}^{M-1} \exp(\eta_k) \Bigr)^{-1}
\tag{2.217}
\end{align}
$$
カテゴリカル分布が指数型分布族であることを確認できる。
・ガウス分布
最後に、1変数のガウス分布について考える。
$$
p(x | \mu, \sigma^2)
= \mathcal{N}(x | \mu, \sigma^2)
= \frac{
1
}{
(2 \pi \sigma^2)^{\frac{1}{2}}
}
\exp \Bigl\{
- \frac{1}{2 \sigma^2}
(x - \mu)^2
\Bigr\}
\tag{2.218}
$$
ここで$x$は連続確率変数、$\mu$は平均、$\sigma^2$は分散を表すパラメータである。
定義式の括弧を展開すると、$\exp(a + b) = \exp(a) \exp(b)$より
$$
\begin{align}
p(x | \mu, \sigma^2)
&= \frac{
1
}{
(2 \pi \sigma^2)^{\frac{1}{2}}
}
\exp \left(
- \frac{1}{2 \sigma^2} x^2
+ \frac{1}{\sigma^2} \mu x
- \frac{1}{2 \sigma^2} \mu^2
\right)
\\
&= \frac{1}{(2 \pi)^{\frac{1}{2}}}
\frac{1}{(\sigma^2)^{\frac{1}{2}}}
\exp \left(
- \frac{\mu^2}{2 \sigma^2}
\right)
\exp \left(
- \frac{1}{2 \sigma^2} x^2
+ \frac{1}{\sigma^2} \mu x
\right)
\tag{2.219}
\end{align}
$$
となる。
この式について
$$
\begin{align}
\boldsymbol{\eta}
&= \begin{pmatrix}
\eta_1 \\ \eta_2
\end{pmatrix}
= \begin{pmatrix}
\frac{\mu}{\sigma^2} \\ - \frac{1}{2 \sigma^2}
\end{pmatrix}
\tag{2.220}\\
\mathbf{u}(x)
&= \mathbf{x}
= \begin{pmatrix}
x \\ x^2
\end{pmatrix}
\tag{2.221}
\end{align}
$$
とおくと、後の$\exp(\cdot)$内の計算を
$$
\boldsymbol{\eta}^{\top} \mathbf{x}
= \begin{pmatrix}
\frac{\mu}{\sigma^2} & - \frac{1}{2 \sigma^2}
\end{pmatrix}
\begin{pmatrix}
x \\ x^2
\end{pmatrix}
= \frac{1}{\sigma^2} \mu x - \frac{1}{2 \sigma^2} x^2
$$
で書き換えられる。
また1つ目の項を
$$
h(x)
= \frac{1}{(2 \pi)^{\frac{1}{2}}}
= (2 \pi)^{-\frac{1}{2}}
\tag{2.222}
$$
さらに$\boldsymbol{\eta}$を用いて、2つ目の項を
$$
\frac{1}{(\sigma^2)^{\frac{1}{2}}}
= \Bigl(\frac{1}{\sigma^2}\Bigr)^{\frac{1}{2}}
= (- 2 \eta_2)^{\frac{1}{2}}
$$
3つ目の項を
$$
- \frac{\mu^2}{2 \sigma^2}
= - \frac{1}{4}
\Bigl(\frac{\mu}{\sigma^2}\Bigr)^2
2 \sigma^2
= \frac{\eta_1^2}{4 \eta_2}
$$
と置き換えられることから
$$
g(\boldsymbol{\eta})
= (- 2 \eta_2)^{\frac{1}{2}}
\exp \left(
\frac{\eta_1^2}{4 \eta_2}
\right)
\tag{2.223}
$$
と対応付けるられるので、1変数ガウス分布が指数型分布族と確認できる。
参考文献
- C.M.ビショップ著,元田 浩・他訳『パターン認識と機械学習 上下』,丸善出版,2012年.
おわりに
PRMLの精読を始めました。とりあえず1つ目の記事です。この本は気ままに続けるつもりです。