はじめに

　機械学習で登場する確率分布について色々な角度から理解したいシリーズです。

　多項分布の定義を確認します。

【前の内容】

www.anarchive-beta.com

【他の記事一覧】

www.anarchive-beta.com

【この記事の内容】

はじめに
多項分布の定義式
関連する記事
参考文献
おわりに

多項分布の定義式

　多項分布(Multinomial Distribution)の定義を確認します。

定義式

　サイコロのように、複数の離散値から複数の値をとる変数の確率分布を多項分布と言います。

　$V$種類の離散値(クラス)$1, 2, \cdots, V$からランダムに$M$個の値(クラス)を得ることを考えます。

　試行回数を$M$、得られた値(クラス・サイコロの目)$v$の出現回数を$x_v$で表します。全てのクラスの出現回数をまとめた$V$次元ベクトル(要素数が$V$のベクトル)

$$ \mathbf{x} = (x_1, x_2, \cdots, x_V) $$

で$M$回の試行結果を表します。
　試行回数が$M$なので、$\mathbf{x}$の各要素$x_v$は、全て外のクラスときの0から全て同じクラスのときの$M$までの整数になります。$x_v$が$1$から$M$の値をとることを

$$ x_v \in \{1, 2, \cdots, M\} $$

で表します。
　全ての要素(クラス1が出た回数$x_1$からクラス$V$が出た回数$x_V$)の和も$M$

$$ \sum_{v=1}^V x_v = M $$

になります。

　1回の試行においてクラス$v$となる確率を$\phi_v$で表すことにします。$V$種類のクラスに対応する確率をまとめて

$$ \boldsymbol{\phi} = (\phi_1, \phi_2, \cdots, \phi_V),\ $$

と表記します。
　$\boldsymbol{\phi}$の各要素$\phi_v$は、0から1の値をとり、全ての要素の和が1の条件

$$ 0 < \phi_v < 1,\ \sum_{v=1}^V \phi_v = 1 $$

を満たす必要があります。$\phi_v$が0より大きく1より小さい値をとることを$\phi_v \in (0, 1)$とも表記します。

　多項分布は、パラメータ$\boldsymbol{\phi}$を用いて次の式で定義されます。

$$ \mathrm{Mult}(\boldsymbol{x} | M, \boldsymbol{\phi}) = \frac{M!}{x_1! x_2! \cdots x_V!} \prod_{v=1}^V \phi_v^{x_v} $$

　ここで

$$ \binom{M}{x_1, x_2, \cdots, x_V} = \frac{M!}{x_1! x_2! \cdots x_V!} $$

は、$M$個の対象を$V$個のグループに分ける場合の数を表します。

　例えば、サイコロ($V = 6$)を3回振って($M = 3$で)1の目が2回・4の目が1回出た($x_1 = 2, x_4 = 1$で他の要素は0となる)とき

$$ \binom{3}{2, 0, 0, 1, 0, 0} = \frac{3!}{2! 0! 0! 1! 0! 0!} = 3 $$

となります。これは、3回の試行結果(出目)の組み合わせが「1・1・4」「1・4・1」「4・1・1」の3通りであることを求めています。

　また、$V = 6, M = 3, \mathbf{x} = (2, 0, 0, 1, 0, 0)$のとき、多項分布の式は

$$ \begin{aligned} \mathrm{Mult}(\boldsymbol{x} | M, \boldsymbol{\phi}) &= \frac{3!}{2! 0! 0! 1! 0! 0!} \prod_{v=1}^6 \phi_v^{x_v} \\ &= 3 * \phi_1^{2} * \phi_2^{0} * \phi_3^{0} * \phi_4^{1} * \phi_5^{0} * \phi_6^{0} \\ &= 3 * \phi_1^{2} * 1 * 1 * \phi_4 * 1 * 1 \\ &= 3 \phi_1^{2} \phi_4 \end{aligned} $$

「3通りの組み合わせ」と「1が2回出る確率$\phi_1^2$」と「4が1回出る確率$\phi_4$」の積となります。指数の定義より$x^0 = 1$です。
　このように、$\mathbf{x}$の値に対応した確率となるように式が定義されています。

　多項分布の対数をとると

$$ \log \mathrm{Mult}(\boldsymbol{x} | N, \boldsymbol{\phi}) = \log M! + \sum_{v=1}^V \Bigl\{ x_v \log \phi_v - \log x_v! \Bigr\} $$

となります。対数の性質より$\log x^a = a \log x$、$\log (x y) = \log x + \log y$です。

他の分布との関係

　クラス数が2で試行回数が1、つまり$V = 2, M = 1$のとき、$\mathbf{x} = (x_1, x_2)$なので

$$ \begin{aligned} \sum_{v=1}^2 x_v &= 1 \\ x_1 + x_2 &= 1 \\ x_2 &= 1 - x_1 \end{aligned} $$

となります。また、$\boldsymbol{\phi} = (\phi_1, \phi_2)$なので

$$ \begin{aligned} \sum_{v=1}^2 \phi_v &= 1 \\ \phi_1 + \phi_2 &= 1 \\ \phi_2 &= 1 - \phi_1 \end{aligned} $$

となります。よって、$V = 2, M = 1$のとき多項分布は

$$ \begin{aligned} \mathrm{Mult}(\boldsymbol{x} | M = 1, \boldsymbol{\phi}) &= \frac{1!}{x_1! x_2!} \prod_{v=1}^2 \phi_v^{x_v} \\ &= \frac{1!}{1! 0!} \phi_1^{x_1} \phi_2^{x_2} \\ &= \phi_1^{x_1} (1 - \phi_1)^{1-x_1} = \mathrm{Bern}(x_1 | \phi_1) \end{aligned} $$

パラメータ$\phi_1$のベルヌーイ分布と等しくなります。階乗の定義より$0! = 1$なので、$x_1, x_2$のどちらが1であっても組み合わせの項は1になります。

　続いて、$V = 2$の場合を考えます。$\mathbf{x} = (x_1, x_2)$なので

$$ \begin{aligned} \sum_{v=1}^2 x_v &= M \\ x_1 + x_2 &= M \\ x_2 &= M - x_1 \end{aligned} $$

となります。よって、$V = 2$のとき多項分布は

$$ \begin{aligned} \mathrm{Mult}(\boldsymbol{x} | M, \phi_1, \phi_2) &= \frac{M!}{x_1! x_2!} \prod_{v=1}^2 \phi_v^{x_v} \\ &= \frac{M!}{x_1! x_2!} \phi_1^{x_1} \phi_2^{x_2} \\ &= \frac{M!}{x_1! (M - x_1)!} \phi_1^{x_1} (1 - \phi_1)^{M-x_1} = \mathrm{Bin}(x_1 | M, \phi_1) \end{aligned} $$

パラメータ$\phi_1$の二項分布と等しくなります。

　最後に、$M = 1$の場合を考えます。$M = 1$のとき、$\mathbf{x}$は1つの要素が1で他の要素は0なので、多項分布は

$$ \begin{aligned} \mathrm{Mult}(\boldsymbol{x} | M = 1, \boldsymbol{\phi}) &= \frac{1!}{x_1! x_2! \cdots x_V!} \prod_{v=1}^V \phi_v^{x_v} \\ &= \frac{1!}{0! \cdots 1! \cdots 0!} \prod_{v=1}^V \phi_v^{x_v} \\ &= \prod_{v=1}^V \phi_v^{x_v} = \mathrm{Cat}(\boldsymbol{x} | \boldsymbol{\phi}) \end{aligned} $$

カテゴリ分布と等しくなります。

　つまり、ベルヌーイ分布・二項分布・カテゴリ分布は多項分布の特殊な形であると言えます。逆に、多項分布はベルヌーイ分布・二項分布・カテゴリ分布を拡張(多次元化・多試行化)した形であると言えます。

統計量の計算式

　多項分布のクラス$v$における平均と分散は、次の式で計算できます。詳しくは「多項分布の平均と分散の導出 - からっぽのしょこ」を参照してください。

$$ \begin{aligned} \mathbb{E}[x_v] &= N \phi_v \\ \mathbb{V}[x_v] &= N \phi_v (1 - \phi_v) \end{aligned} $$

参考文献

岩田具治『トピックモデル』(機械学習プロフェッショナルシリーズ)講談社,2015年.

おわりに

　加筆修正の際に青トピシリーズから独立させました。

【次の内容】

つづく