はじめに

　機械学習で登場する確率分布について色々な角度から理解したいシリーズです。

　多項分布の統計量を導出します。

【前の内容】

www.anarchive-beta.com

【他の記事一覧】

www.anarchive-beta.com

【この記事の内容】

はじめに
多項分布の統計量の導出
参考書籍
おわりに

多項分布の統計量の導出

　多項分布(Multinomial Distribution)の平均と分散を導出します。

定義式の確認

　まずは、多項分布の定義式を確認します。

　多項分布は、次の式で定義されます。詳しくは「多項分布の定義式 - からっぽのしょこ」を参照してください。

$$ \mathrm{Mult}(\boldsymbol{x} | M, \boldsymbol{\phi}) = \frac{ M! }{ x_1! x_2! \cdots x_V! } \prod_{v=1}^V \phi_v^{x_v} $$

　ここで、$x_v$はクラス$v$が出現した回数、$M$は試行回数、$\phi_v$はクラス$v$の出現確率です。
　確率変数の値$\mathbf{x} = (x_1, \cdots, x_V)$は、$x_v \in \{1, \cdots, V\}$、$\sum_{v=1}^V x_v = M$となります。パラメータ$\boldsymbol{\phi} = (\phi_1, \cdots, \phi_V)$は、$\phi_v \in (0, 1)$、$\sum_{v=1}^V \phi_v = 1$を満たす必要があります。

　多項分布のクラス$v$における平均と分散は、次の式で計算できます。

$$ \begin{aligned} \mathbb{E}[x_v] &= N \phi_v \\ \mathbb{V}[x_v] &= N \phi_v (1 - \phi_v) \end{aligned} $$

　この計算式を求めます。

平均の導出

　確率分布が取り得る値$\boldsymbol{x}$とその値となる確率$p(\boldsymbol{x})$とを掛け合わせて、和をとった値が平均となる。

$$ \begin{aligned} \mathbb{E}[x_v] &= \sum_{v=1}^V x_v p(x_v) \\ &= \sum_{v=1}^V x_v \frac{ N! }{ x_1! \cdots x_v! \cdots x_V! } \phi_1^{x_1} \cdots \phi_v^{x_v} \cdots \phi_V^{x_V} \\ &= \sum_{v=1}^V x_v \frac{N * (N - 1)!}{x_1! \cdots x_v * (x_v - 1)! \cdots x_V!} \phi_1^{x_1} \cdots \phi_v * \phi_v^{x_v-1} \cdots \phi_V^{x_V} \\ &= N \phi_v \sum_{v=1}^V \frac{(N - 1)!}{x_1! \cdots (x_v - 1)! \cdots x_V!} \phi_1^{x_1}\cdots \phi_v^{x_v-1} \cdots \phi_V^{x_V} \\ &= N \phi_v * 1 \\ &= N \phi_v \end{aligned} $$

【途中式の途中式】

平均の定義式(1.5')より、式を立てる。

$p(x_v) = \mathrm{Multinomial}(\boldsymbol{x} | N, \boldsymbol{\phi})$で置き換える。
$N! = N (N - 1)!$、$\frac{1}{x_v!} = \frac{1}{x_v (x_v - 1)!}$、$\phi_v^{x_v} = \phi_v \phi_v^{x_v-1}$に分割する。
$N$と$\phi_v$を$\sum_v$の外に出す。
$\sum_v$の因子は、試行回数が$N - 1$のときの全ての事象の確率の和であるため1になる。

分散の導出

　「1.1.1-7：確率の基礎【『トピックモデル』の勉強ノート】 - からっぽのしょこ」より、「$x_v$の2乗の平均」と「$x_v$の平均の2乗」との差が分散となる。そこでまずは、$x_v$の2乗の平均を求める。

$$ \begin{aligned} \mathbb{E}[x_v^2] &= \sum_{v=1}^V x_v^2 p(x_v) \\ &= \sum_{v=1}^V x_v^2 \frac{N!}{x_1! \cdots x_v! \cdots x_V!} \phi_1^{x_1} \cdots \phi_v^{x_v} \cdots \phi_V^{x_V} \\ &= \sum_{v=1}^V \{x_v (x_v - 1) + x_v\} \frac{N!}{x_1! \cdots x_v! \cdots x_V!} \phi_1^{x_1} \cdots \phi_v^{x_v} \cdots \phi_V^{x_V} \\ &= \sum_{v=1}^V x_v (x_v - 1) \frac{N!}{x_1! \cdots x_v! \cdots x_V!} \phi_1^{x_1} \cdots \phi_v^{x_v} \cdots \phi_V^{x_V} + \sum_{v=1}^V x_v \frac{N!}{x_1! \cdots x_v! \cdots x_V!} \phi_1^{x_1} \cdots \phi_v^{x_v} \cdots \phi_V^{x_V} \\ &= \sum_{v=1}^V x_v (x_v - 1) \frac{ N (N - 1) * (N - 2)! }{ x_1! \cdots x_v (x_v - 1) * (x_v - 2)! \cdots x_V! } \phi_1^{x_1} \cdots \phi_v^2 * \phi_v^{x_v-2} \cdots \phi_V^{x_V} + \mathbb{E}[x_v] \\ &= N (N - 1) \phi_v^2 \sum_{v=1}^V \frac{(N - 2)!}{x_1! \cdots (x_v - 2)! \cdots x_V!} \phi_1^{x_1} \cdots \phi_v^{x_v-2} \cdots \phi_V^{x_V} + N \phi \\ &= N (N - 1) \phi_v^2 * 1 + N \phi_v \\ &= N (N - 1) \phi_v^2 + N \phi_v \end{aligned} $$

【途中式の途中式】

平均の定義式(1.5')より、式を立てる。

$p(x_v) = \mathrm{Multinomial}(\boldsymbol{x} | N, \boldsymbol{\phi})$で置き換える。
$x^2 = x(x - 1) + x$に分割する。
$\sum (A + B) = \sum A + \sum B$の式変形を行う。
分割した因子について、それぞれ変形する。
- $N! = N(N - 1)(N - 2)!$、$\frac{1}{x_v!} = \frac{1}{x_v(x_v - 1)(x_v - 2)!}$、$\phi_v^{x_v} = \phi_v^2 \phi_v^{x_v-2}$に分割する。
- $\sum_{v=1}^V x_v \frac{N!}{x_1! \cdots x_V!} \phi_1^{x_1} \cdots \phi_V^{x_V} = \mathbb{E}[x_v] = N \phi_v$より、置き換える。
$N (N - 1)$と$\phi_v^2$を$\sum_v$の外に出す。
$\sum_v$の因子は、試行回数が$N - 2$のときの全ての事象の確率の和であるため1になる。

　「$x_v$の2乗の平均」と「$x_v$の平均の2乗」との差を求める。

$$ \begin{aligned} \mathrm{Var}[x_v] &= \mathbb{E}[x_v^2] - (\mathbb{E}[x_v])^2 \\ &= N (N - 1) \phi_v^2 + N \phi_v - (N \phi_v)^2 \\ &= N^2 \phi_v^2 - N \phi_v^2 + N \phi - N^2 \phi_v^2 \\ &= N \phi_v (1 - \phi_v) \end{aligned} $$

　$N = 1$(試行回数が1)のとき、多項分布の平均は$N \phi_v = \phi_v$、分散は$N \phi_v (1 - \phi_v) = \phi_v (1 - \phi_v)$となり、カテゴリ分布の平均と分散とそれぞれ等しくになることが確認できる。

参考書籍

岩田具治(2015)『トピックモデル』(機械学習プロフェッショナルシリーズ)講談社

おわりに

2019/08/17：加筆修正しました。
2020/06/22：加筆修正しました。またその際に記事の一部を別の記事に分割しました。

　多項分布ってどーやって可視化すればいーのー。

2022/01/25：「定義の確認」と「グラフの作成」の加筆修正の際に青トピシリーズから独立させました。

　多項分布のグラフを作る記事も書きました。

【次の内容】

からっぽのしょこ

読んだら書く！書いたら読む！同じ事は二度調べ(たく)ない

多項分布の平均と分散の導出