はじめに

　機械学習で登場する確率分布について色々な角度から理解したいシリーズです。

　二項分布の統計量を定義式から導出します。

【前の内容】

www.anarchive-beta.com

【他の記事一覧】

www.anarchive-beta.com

【この記事の内容】

はじめに
二項分布の統計量の導出
参考書籍
おわりに

二項分布の統計量の導出

　定義式を利用して、二項分布(Binomial Distribution)の平均(期待値)と分散を導出します。二項分布については「二項分布の定義式 - からっぽのしょこ」を参照してください。

定義式の確認

　二項分布は、次の式で定義されます。

$$ \mathrm{Bin}(x | M, \phi) = \frac{M!}{(M - x)! x!} \phi^x (1 - \phi)^{M-x} $$

　ここで、$x$は成功回数、$M$は試行回数、$\phi$は成功確率です。
　確率変数の値$x$は、$x \in \{0, 1, \cdots, M\}$となります。パラメータ$\phi$は、$\phi \in (0, 1)$を満たす必要があります。また、失敗回数は$M - x$、失敗確率は$1 - \phi$で表せます。

　二項分布の平均と分散は、次の式で計算できます。

$$ \begin{aligned} \mathbb{E}[x] &= M \phi \\ \mathbb{V}[x] &= M \phi (1 - \phi) \end{aligned} $$

　試行回数が$M = 1$のとき、ベルヌーイ分布の平均・分散と一致します。

　定義式を用いて、平均と分散の計算式を導出します。

平均の計算

　二項分布の平均を導出します。

$$ \begin{aligned} \mathbb{E}[x] &= \sum_{x=0}^M x \mathrm{Bin}(x | M, \phi) \\ &= \sum_{x=0}^M x {}_MC_x \phi^x (1 - \phi)^{M-x} \end{aligned} $$

　$x = 0$について、0になり計算結果に影響しないので、$\sum_{x=0}^M$から取り出します。

$$ \begin{aligned} \mathbb{E}[x] &= 0 {}_MC_0 \phi^0 (1 - \phi)^{M-0} + \sum_{x=1}^M x {}_MC_x \phi^x (1 - \phi)^{M-x} \\ &= \sum_{x=1}^M x {}_MC_x \phi^x (1 - \phi)^{M-x} \end{aligned} $$

　組み合わせの項について

$$ {}_MC_x = \frac{M!}{(M - x)! x!} = \frac{M}{x} \frac{(M - 1)!}{\{(M - 1) - (x - 1)\}! (x - 1)!} = \frac{M}{x} {}_{M-1}C_{x-1} $$

と変形します。

$$ \begin{aligned} \mathbb{E}[x] &= \sum_{x=1}^M x \frac{M}{x} {}_{M-1}C_{x-1} \phi^x (1 - \phi)^{M-x} \\ &= M \sum_{x=1}^M {}_{M-1}C_{x-1} \phi^x (1 - \phi)^{M-x} \end{aligned} $$

　総和について$\sum_{x=1}^M = \sum_{x-1=0}^{M-1}$、$1 - \phi$の指数について$M - x = (M - 1) - (x - 1)$と変形して、さらに$x' = x - 1$、$M' = M - 1$に置き換えます。

$$ \begin{aligned} \mathbb{E}[x] &= M \sum_{x-1=0}^{M-1} {}_{M-1}C_{x-1} \phi^x (1 - \phi)^{(M-1)-(x-1)} \\ &= M \sum_{x'=0}^{M'} {}_{M'}C_{x'} \phi^{x'+1} (1 - \phi)^{M'-x'} \end{aligned} $$

　$\phi^{x+1} = \phi \phi^x$に分割します。

$$ \mathbb{E}[x] = M \phi \sum_{x'=0}^{M'} {}_{M'}C_{x'} \phi^{x'} (1 - \phi)^{M'-x'} \tag{1} $$

　式(1)は二項定理$(a + b)^n = \sum_{r=0}^n {}_nC_r a^r b^{n-r}$の形をしているので、右辺から左辺の式に変形します。

$$ \begin{aligned} \mathbb{E}[x] &= M \phi \Bigl\{ \phi + (1 - \phi) \Bigr\}^{M'} \\ &= M \phi \end{aligned} $$

　平均の計算式が得られました。

　次のようにも解釈できます。式(1)は試行回数$M'$・パラメータ$\phi$の二項分布になっています。

$$ \mathbb{E}[x] = M \phi \sum_{x'=0}^{M'} \mathrm{Bin}(x' | M', \phi) $$

　全事象$x' = 0, 1, \ldots, M'$の和なので1になります。

$$ \mathbb{E}[x] = M \phi $$

　先ほどの結果と一致しました。

二乗の平均の計算

　続いて、$x^2$の平均を求めます。

$$ \begin{aligned} \mathbb{E}[x^2] &= \sum_{x=0}^M x^2 \mathrm{Bin}(x | M, \phi) \\ &= \sum_{x=0}^M x^2 {}_MC_x \phi^x (1 - \phi)^{M-x} \end{aligned} $$

　$x^2 = x (x - 1) + x$に分割します。

$$ \begin{aligned} \mathbb{E}[x^2] &= \sum_{x=0}^M \{x (x - 1) + x\} {}_MC_x \phi^x (1 - \phi)^{M-x} \\ &= \sum_{x=0}^M x (x - 1) {}_MC_x \phi^x (1 - \phi)^{M-x} + \sum_{x=0}^M x {}_MC_x \phi^x (1 - \phi)^{M-x} \end{aligned} $$

　前の項に関して、$x = 0, 1$は0になるので取り出します。後の項は、$x$の平均なので置き換えます。

$$ \begin{aligned} \mathbb{E}[x^2] &= 0 (0 - 1) {}_MC_0 \phi^0 (1 - \phi)^{M-0} \\ &\quad + 1 (1 - 1) {}_MC_1 \phi^1 (1 - \phi)^{M-1} \\ &\quad + \sum_{x=2}^M x (x - 1) {}_MC_x \phi^x (1 - \phi)^{M-x} \\ &\quad + \mathbb{E}[x] \\ &= \sum_{x=2}^M x (x - 1) {}_MC_x \phi^x (1 - \phi)^{M-x} + M \phi \end{aligned} $$

　組み合わせの項について

$$ {}_MC_x = \frac{M!}{(M - x)! x!} = \frac{M (M - 1)}{x (x - 1)} \frac{(M - 2)!}{\{(M - 2) - (x - 2)\}! (x - 2)!} = \frac{M (M - 1)}{x (x - 1)} {}_{M-2}C_{x-2} $$

と変形します。

$$ \begin{aligned} \mathbb{E}[x^2] &= \sum_{x=2}^M x (x - 1) \frac{M (M - 1)}{x (x - 1)} {}_{M-2}C_{x-2} \phi^x (1 - \phi)^{M-x} + M \phi \\ &= M (M - 1) \sum_{x=2}^M {}_{M-2}C_{x-2} \phi^x (1 - \phi)^{M-x} + M \phi \end{aligned} $$

　総和について$\sum_{x=2}^M = \sum_{x-2=0}^{M-2}$、$1 - \phi$の指数について$M - x = (M - 2) - (x - 2)$と変形して、さらに$x' = x - 2$、$M' = M - 2$に置き換えます。

$$ \begin{aligned} \mathbb{E}[x^2] &= M (M - 1) \sum_{x-2=0}^{M-2} {}_{M-2}C_{x-2} \phi^x (1 - \phi)^{(M-2)-(x-2)} + M \phi \\ &= M (M - 1) \sum_{x'=0}^{M'} {}_{M'}C_{x'} \phi^{x'+2} (1 - \phi)^{M'-x'} + M \phi \end{aligned} $$

　$\phi^{x'+2} = \phi^2 \phi^{x'}$に分割します。

$$ \mathbb{E}[x^2] = M (M - 1) \phi^2 \sum_{x'=0}^{M'} {}_{M'}C_{x'} \phi^{x'} (1 - \phi)^{M'-x'} + M \phi \tag{2} $$

　二項定理$(a + b)^n = \sum_{r=0}^n {}_nC_r a^r b^{n-r}$の変形を行います。

$$ \begin{aligned} \mathbb{E}[x^2] &= M (M - 1) \phi^2 \Bigl\{ \phi + (1 - \phi) \Bigr\}^{M'} + M \phi \\ &= M (M - 1) \phi^2 + M \phi \end{aligned} $$

　二乗の平均が求まりました。

　あるいは、式(2)を試行回数$M'$・パラメータ$\phi$の二項分布の全事象の和と考えても同じ結果が得られます。

$$ \begin{aligned} \mathbb{E}[x^2] &= M (M - 1) \phi^2 \sum_{x'=0}^{M'} \mathrm{Bin}(x' | M', \phi) + M \phi \\ &= M (M - 1) \phi^2 + M \phi \end{aligned} $$

分散の計算

　分散は「$x$の2乗の平均」と「$x$の平均の2乗」の差で求められます。詳しくは「1.1.1-7：確率の基礎【『トピックモデル』の勉強ノート】 - からっぽのしょこ」を参照してください。

$$ \begin{aligned} \mathbb{V}[x] &= \mathbb{E}[x^2] - (\mathbb{E}[x])^2 \\ &= M (M - 1) \phi^2 + M \phi - (M \phi)^2 \end{aligned} $$

　括弧を展開して、式を整理します。

$$ \begin{aligned} \mathbb{V}[x] &= M^2 \phi^2 - M \phi^2 + M \phi - M^2 \phi^2 \\ &= M \phi (1 - \phi) \end{aligned} $$

　二項分布の分散の計算式が得られました。

参考書籍

岩田具治(2015)『トピックモデル』(機械学習プロフェッショナルシリーズ)講談社

おわりに

2019/08/17：加筆修正しました。

　色々間違っていました。

2020/06/17：加筆修正しました。
2022/01/25：「定義の確認」と「グラフの作成」の加筆修正の際に青トピシリーズから独立させました。
2022/02.19：加筆修正しました。これで最後にしたい。

【次の内容】

からっぽのしょこ

読んだら書く！書いたら読む！同じ事は二度調べ(たく)ない

二項分布の平均と分散の導出：定義式を利用