からっぽのしょこ

読んだら書く!書いたら読む!同じ事は二度調べ(たく)ない

2.4.0:指数型分布族【PRMLのノート】

はじめに

 『パターン認識と機械学習』の独学時のまとめです。一連の記事は「数式の行間埋め」または「R・Pythonでの実装」からアルゴリズムの理解を補助することを目的としています。本とあわせて読んでください。

 この記事は、2.4節の始めの内容です。ベルヌーイ分布、カテゴリカル分布、1変数ガウス分布が指数型分布族であることを導出します。

【他の節一覧】

www.anarchive-beta.com

【この節の内容】

2.4.0 指数型分布族

 指数型分布族は、$\mathbf{x}$を確率変数、$\boldsymbol{\eta}$をパラメータとして、次の式で定義される分布の集合である。

$$ p(\mathbf{x} | \boldsymbol{\mu}) = h(\mathbf{x}) g(\boldsymbol{\eta}) \exp\{ \boldsymbol{\eta}^{\top} \mathbf{u}(\mathbf{x}) \} \tag{2.194} $$

 ここで$\mathbf{u}(\mathbf{x})$は$\mathbf{x}$の任意の関数、$g(\boldsymbol{\eta})$は正規化項であり

$$ g(\boldsymbol{\eta}) \int h(\mathbf{x}) \exp\{ \boldsymbol{\eta}^{\top} \mathbf{u}(\mathbf{x}) \} d\mathbf{x} = 1 \tag{2.195} $$

を満たす。ただし$\mathbf{x}$が離散変数であれば、積分が総和になる。

 この項では、ベルヌーイ分布、カテゴリカル分布、ガウス分布が指数型分布族であることを示す。

・ベルヌーイ分布

 まずは、ベルヌーイ分布について考える。

$$ p(x | \mu) = \mathrm{Bern}(x | \mu) = \mu^x (1 - \mu)^{1-x} \tag{2.196} $$

 ここで$x$は二値確率変数$x \in \{0, 1\}$、$\mu$は$x = 1$となる確率を表すパラメータ$0 \leq \mu \leq 1$である。

 ベルヌーイ分布の定義式の対数をとり、さらにその指数をとると、$\exp(\ln x) = x$より

$$ \begin{aligned} p(x | \mu) &= \exp \Bigl[ \ln\Bigl\{\mu^x (1 - \mu)^{1-x}\Bigr\} \Bigr] \\ &= \exp \Bigl\{ x \ln \mu + (1 - x) \ln (1 - \mu) \Bigr\} \end{aligned} $$

と変形できる。括弧を展開して、$x$に関して整理すると

$$ \begin{align} p(x | \mu) &= \exp \Bigl\{ x \ln \mu + \ln (1 - \mu) - x \ln (1 - \mu) \Bigr\} \\ &= (1 - \mu) \exp \Bigl[ \Bigl\{\ln \mu - \ln (1 - \mu)\Bigr\} x \Bigr] \\ &= (1 - \mu) \exp \left\{ \ln \Bigl(\frac{\mu}{1 - \mu}\Bigr) x \right\} \tag{2.197} \end{align} $$

となる。

 この式を指数分布族の標準形(2.194)と対応付けて

$$ \eta = \ln \left( \frac{\mu}{1 - \mu} \right) \tag{2.198} $$

とおく。

 式(2.198)を$\mu$について解く。両辺の指数をとり

$$ \exp(\eta) = \frac{\mu}{1 - \mu} $$

さらに逆数をとると、$\frac{1}{e^{\eta}} = (e^{\eta})^{-1} = e^{-\eta}$より

$$ \begin{aligned} \exp(-\eta) &= \frac{1 - \mu}{\mu} \\ \exp(- \eta) \mu &= 1 - \mu \\ \{1 + \exp(- \eta)\} \mu &= 1 \\ \mu &= \frac{1}{1 + \exp(- \eta)} \end{aligned} $$

となる。

 右辺の式を$\sigma(\eta)$で表すことにする。

$$ \sigma(\eta) = \frac{1}{1 + \exp(- \eta)} \tag{2.199} $$

 これをロジスティックシグモイド関数と呼ぶ。

 この式を式(2.197)に代入するために、$1 - \mu = 1 - \sigma(\eta)$を考える。

$$ \begin{aligned} 1 - \sigma(\eta) &= 1 - \frac{1}{1 + \exp(- \eta)} \\ &= \frac{1 + \exp(- \eta)}{1 + \exp(- \eta)} - \frac{1}{1 + \exp(- \eta)} \\ &= \frac{\exp(- \eta)}{1 + \exp(- \eta)} \end{aligned} $$

 分母分子に$e^{\eta}$を掛けると、$e^{-\eta} e^{\eta} = e^{-\eta+\eta}$、また$x^0 = 1$より

$$ \begin{aligned} 1 - \sigma(\eta) &= \frac{1}{\exp(\eta) + 1} = \sigma(-\eta) \end{aligned} $$

となる。

 この式と式(2.198)を式(2.197)に代入すると

$$ \begin{align} p(x | \mu) &= (1 - \mu) \exp \left\{ \ln \Bigl(\frac{\mu}{1 - \mu}\Bigr) x \right\} \tag{2.197}\\ &= \sigma(-\eta) \exp(\eta x) \end{align} $$

と変形できるので、次のように対応付けると

$$ \begin{align} u(x) &= x \tag{2.201}\\ h(x) &= 1 \tag{2.202}\\ g(\eta) &= \sigma(-\eta) \tag{2.203} \end{align} $$

ベルヌーイ分布が指数型分布族であることを確認できる。

・カテゴリカル分布

 次に、カテゴリカル分布($N=1$のときの多項分布)について考える。

$$ p(\mathbf{x} | \boldsymbol{\mu}) = \mathrm{Cat}(\mathbf{x} | \boldsymbol{\mu}) = \prod_{k=1}^M \mu_k^{x_k} $$

 ここで$\mathbf{x} = (x_1, x_2, \cdots, x_M)^{\top}$は離散確率変数であり、$x_k \in \{0, 1\}$、$\sum_{k=1}^M x_k = 1$である。また$\boldsymbol{\mu} = (\mu_1, \mu_2, \cdots, \mu_M)^{\top}$は、$x_k = 1$となる確率を表すパラメータ$0 \leq \mu_k \leq 1$であり、$\sum_{k=1}^M \mu_k = 1$である。

 ベルヌーイ分布のときと同様に、定義式の対数をとり、さらにその指数をとると

$$ \begin{align} p(\mathbf{x} | \boldsymbol{\mu}) &= \exp \left\{ \ln \Bigl( \prod_{k=1}^M \mu_k^{x_k} \Bigr) \right\} \\ &= \exp \left\{ \sum_{k=1}^M x_k \ln \mu_k \right\} \tag{2.204} \end{align} $$

と変形できる。

 この式について$\eta_k = \ln \mu_k$とおき、$\boldsymbol{\eta} = (\eta_1, \cdots, \eta_M)^{\top}$とすると、括弧内の計算は内積の計算を使って

$$ \boldsymbol{\eta}^{\top} \mathbf{x} = \begin{pmatrix} \eta_1 & \eta_2 & \cdots & \eta_M \end{pmatrix} \begin{pmatrix} x_1 \\ x_2 \\ \vdots \\ x_M \end{pmatrix} = \sum_{k=1}^M x_k \eta_k $$

と書き換えられるので

$$ p(\mathbf{x} | \boldsymbol{\mu}) = \exp(\boldsymbol{\eta}^{\top} \mathbf{x}) \tag{2.205} $$

とできる。

 この式を指数型分布族の標準形(2.194)と対応付けると

$$ \begin{align} \mathbf{u}(\mathbf{x}) &= \mathbf{x} \tag{2.206}\\ h(\mathbf{x}) &= 1 \tag{2.207}\\ g(\boldsymbol{\eta}) &= 1 \tag{2.208} \end{align} $$

である。

 またパラメータの制約$\sum_{k=1}^M \mu_k = 1$を用いて、別の方法でも示せる。式(2.204)から$\mu_M$に関する項を取り出して

$$ \begin{align} p(\mathbf{x} | \boldsymbol{\mu}) &= \exp \left\{ \sum_{k=1}^M x_k \ln \mu_k \right\} \tag{2.204}\\ &= \exp \left\{ \sum_{k=1}^{M-1} x_k \ln \mu_k + x_M \ln \mu_M \right\} \end{align} $$

制約より$\mu_M = 1 - \sum_{k=1}^{M-1} \mu_k$、$x_M = 1 - \sum_{k=1}^{M-1} x_k$なので、それぞれ代入すると

$$ p(\mathbf{x} | \boldsymbol{\mu}) = \exp \left\{ \sum_{k=1}^{M-1} x_k \ln \mu_k + \Bigl(1 - \sum_{k=1}^{M-1} x_k \Bigr) \ln \Bigl(1 - \sum_{k=1}^{M-1} \mu_k \Bigr) \right\} $$

と変形できる。括弧を展開して、$\mathbf{x}$に関して整理すると

$$ \begin{align} p(\mathbf{x} | \boldsymbol{\mu}) &= \exp \left\{ \sum_{k=1}^{M-1} x_k \ln \mu_k + \ln \Bigl(1 - \sum_{k=1}^{M-1} \mu_k \Bigr) - \Bigl(\sum_{k=1}^{M-1} x_k \Bigr) \ln \Bigl(1 - \sum_{k=1}^{M-1} \mu_k \Bigr) \right\} \\ &= \left(1 - \sum_{k=1}^{M-1} \mu_k \right) \exp \left[ \sum_{k=1}^{M-1} x_k \Bigl\{ \ln \mu_k - \ln \Bigl(1 - \sum_{j=1}^{M-1} \mu_j \Bigr) \Bigr\} \right] \\ &= \left(1 - \sum_{k=1}^{M-1} \mu_k \right) \exp \left[ \sum_{k=1}^{M-1} x_k \ln \Bigl( \frac{ \mu_k }{ 1 - \sum_{j=1}^{M-1} \mu_j } \Bigr) \right] \tag{2.211} \end{align} $$

となる。

 この式を指数分布族の標準形(2.194)と対応付けて

$$ \eta_k = \ln \left( \frac{ \mu_k }{ 1 - \sum_{j=1}^{M-1} \mu_j } \right) \tag{2.212} $$

とおく。

 式(2.212)を$\mu$について解く。両辺の指数をとり

$$ \exp(\eta_k) = \frac{ \mu_k }{ 1 - \sum_{j=1}^{M-1} \mu_j } \tag{a} $$

さらに両辺を$k$に関して1から$M$まで和をとると、$\sum_{k=1}^M \mu_k = 1$なので

$$ \begin{aligned} \sum_{k=1}^M \exp(\eta_k) &= \sum_{k=1}^M \frac{ \mu_k }{ 1 - \sum_{j=1}^{M-1} \mu_j } \\ &= \frac{1}{1 - \sum_{j=1}^{M-1} \mu_j} \end{aligned} $$

となる。ここで式(a)より$\exp(\eta_M) = \frac{\mu_M}{\mu_M} = 1$なので、左辺の総和から$\exp(\eta_M)$を取り出すと$\sum_{k=1}^M \exp(\eta_k) = 1 + \sum_{k=1}^{M-1} \exp(\eta_k)$である。よって左辺を置き換え

$$ 1 + \sum_{k=1}^{M-1} \exp(\eta_k) = \frac{1}{1 - \sum_{j=1}^{M-1} \mu_j} $$

両辺の逆数をとると

$$ 1 - \sum_{k=1}^{M-1} \mu_k = \frac{1}{1 + \sum_{k=1}^{M-1} \exp(\eta_k)} \tag{b} $$

となる。

 式(a)を$\mu_k$に関して整理して、式(b)を代入すると

$$ \begin{align} \mu_k &= \exp(\eta_k) \left( 1 - \sum_{j=1}^{M-1} \mu_j \right) \\ &= \frac{\exp(\eta_k)}{1 + \sum_{j=1}^{M-1} \exp(\eta_j)} \tag{2.213} \end{align} $$

となる。これをソフトマックス関数または正規化指数関数と呼ぶ。

 式(a)と式(b)を式(2.211)に代入すると

$$ \begin{align} p(\mathbf{x} | \boldsymbol{\mu}) &= \left(1 - \sum_{k=1}^{M-1} \mu_k \right) \exp \left[ \sum_{k=1}^{M-1} x_k \ln \Bigl( \frac{ \mu_k }{ 1 - \sum_{j=1}^{M-1} \mu_j } \Bigr) \right] \tag{2.211}\\ &= \Bigl(1 + \sum_{k=1}^{M-1} \exp(\eta_k) \Bigr)^{-1} \exp \left( \sum_{k=1}^{M-1} x_k \ln \eta_k \right) \\ &= \Bigl(1 + \sum_{k=1}^{M-1} \exp(\eta_k) \Bigr)^{-1} \exp(\boldsymbol{\eta}^{\top} \mathbf{x}) \tag{2.214} \end{align} $$

となる。ここで$\boldsymbol{\eta} = (\eta_1, \eta_2, \cdots, \eta_{M-1}, 0)^{\top}$とおく。$\exp(\eta_M) = 1$より、$\eta_M = \ln 1 = 0$である。

 また次のように対応付けると

$$ \begin{align} \mathbf{u}(\mathbf{x}) &= \mathbf{x} \tag{2.215}\\ h(\mathbf{x}) &= 1 \tag{2.216}\\ g(\boldsymbol{\eta}) &= \Bigl(1 + \sum_{k=1}^{M-1} \exp(\eta_k) \Bigr)^{-1} \tag{2.217} \end{align} $$

カテゴリカル分布が指数型分布族であることを確認できる。

・ガウス分布

 最後に、1変数のガウス分布について考える。

$$ p(x | \mu, \sigma^2) = \mathcal{N}(x | \mu, \sigma^2) = \frac{ 1 }{ (2 \pi \sigma^2)^{\frac{1}{2}} } \exp \Bigl\{ - \frac{1}{2 \sigma^2} (x - \mu)^2 \Bigr\} \tag{2.218} $$

 ここで$x$は連続確率変数、$\mu$は平均、$\sigma^2$は分散を表すパラメータである。

 定義式の括弧を展開すると、$\exp(a + b) = \exp(a) \exp(b)$より

$$ \begin{align} p(x | \mu, \sigma^2) &= \frac{ 1 }{ (2 \pi \sigma^2)^{\frac{1}{2}} } \exp \left( - \frac{1}{2 \sigma^2} x^2 + \frac{1}{\sigma^2} \mu x - \frac{1}{2 \sigma^2} \mu^2 \right) \\ &= \frac{1}{(2 \pi)^{\frac{1}{2}}} \frac{1}{(\sigma^2)^{\frac{1}{2}}} \exp \left( - \frac{\mu^2}{2 \sigma^2} \right) \exp \left( - \frac{1}{2 \sigma^2} x^2 + \frac{1}{\sigma^2} \mu x \right) \tag{2.219} \end{align} $$

となる。

 この式について

$$ \begin{align} \boldsymbol{\eta} &= \begin{pmatrix} \eta_1 \\ \eta_2 \end{pmatrix} = \begin{pmatrix} \frac{\mu}{\sigma^2} \\ - \frac{1}{2 \sigma^2} \end{pmatrix} \tag{2.220}\\ \mathbf{u}(x) &= \mathbf{x} = \begin{pmatrix} x \\ x^2 \end{pmatrix} \tag{2.221} \end{align} $$

とおくと、後の$\exp(\cdot)$内の計算を

$$ \boldsymbol{\eta}^{\top} \mathbf{x} = \begin{pmatrix} \frac{\mu}{\sigma^2} & - \frac{1}{2 \sigma^2} \end{pmatrix} \begin{pmatrix} x \\ x^2 \end{pmatrix} = \frac{1}{\sigma^2} \mu x - \frac{1}{2 \sigma^2} x^2 $$

で書き換えられる。

 また1つ目の項を

$$ h(x) = \frac{1}{(2 \pi)^{\frac{1}{2}}} = (2 \pi)^{-\frac{1}{2}} \tag{2.222} $$

さらに$\boldsymbol{\eta}$を用いて、2つ目の項を

$$ \frac{1}{(\sigma^2)^{\frac{1}{2}}} = \Bigl(\frac{1}{\sigma^2}\Bigr)^{\frac{1}{2}} = (- 2 \eta_2)^{\frac{1}{2}} $$

3つ目の項を

$$ - \frac{\mu^2}{2 \sigma^2} = - \frac{1}{4} \Bigl(\frac{\mu}{\sigma^2}\Bigr)^2 2 \sigma^2 = \frac{\eta_1^2}{4 \eta_2} $$

と置き換えられることから

$$ g(\boldsymbol{\eta}) = (- 2 \eta_2)^{\frac{1}{2}} \exp \left( \frac{\eta_1^2}{4 \eta_2} \right) \tag{2.223} $$

と対応付けるられるので、1変数ガウス分布が指数型分布族と確認できる。

参考文献

  • C.M.ビショップ著,元田 浩・他訳『パターン認識と機械学習 上下』,丸善出版,2012年.

おわりに

 PRMLの精読を始めました。とりあえず1つ目の記事です。この本は気ままに続けるつもりです。