はじめに

　機械学習で登場する確率分布について色々な角度から理解したいシリーズです。

　この記事では、ディリクレ分布の定義式を確認します。

【前の内容】

www.anarchive-beta.com

【他の記事一覧】

www.anarchive-beta.com

【この記事の内容】

はじめに
ディリクレ分布の定義式
関連する記事
参考文献
おわりに

ディリクレ分布の定義式

　ディリクレ分布(Dirichlet Distribution)の定義式を確認します。

定義式

　ディリクレ分布は、ベータ分布(Beta Distribution)を多次元に拡張(一般化)した分布です。ベータ分布については「ベータ分布の定義式 - からっぽのしょこ」を参照してください。

　ディリクレ分布は、パラメータ$\boldsymbol{\beta}$を用いて、次の式で定義されます。

$$ \mathrm{Dir}(\boldsymbol{\phi} | \boldsymbol{\beta}) = \frac{ \Gamma( \sum_{v=1}^V \beta_v ) }{ \prod_{v=1}^V \Gamma(\beta_v) } \prod_{v=1}^V \phi_v^{\beta_v-1} $$

　ここで、$V$は次元数、$V$次元ベクトル$\boldsymbol{\beta} = (\beta_1, \beta_2, \cdots, \beta_V)$はパラメータ、$\Gamma(x)$はガンマ関数です。ガンマ関数については「ガンマ関数の性質の導出 - からっぽのしょこ」を参照してください。
　確率変数は総和が1になる0から1の実数$\boldsymbol{\phi} = (\phi_1, \phi_2, \cdots, \phi_V)$、$0 < \phi_v < 1$、$\sum_{v=1}^V \phi_v = 1$の値をとり、パラメータの各要素$\beta_v$は非負の実数$\beta_v > 0$を満たす必要があります。

　ディリクレ分布は、カテゴリ分布と多項分布の共役事前分布であり、$\boldsymbol{\phi}$はカテゴリ分布と多項分布のパラメータの条件を満たします。

　ディリクレ分布の対数をとると、次の式になります。

$$ \log \mathrm{Dir}(\boldsymbol{\phi} | \boldsymbol{\beta}) = \log \Gamma \Bigl( \sum_{v=1}^V \beta_v \Bigr) - \sum_{v=1}^V \log \Gamma(\beta_v) + (\beta_v - 1) \sum_{v=1}^V \log \phi_v $$

　対数の性質より$\log x^a = a \log x$、$\log (x y) = \log x + \log y$、$\log (x y) = \log x + \log y$です。

一様パラメータの場合

　パラメータ$\boldsymbol{\beta}$が一様$\beta = \beta_1 = \cdots = \beta_V$の場合の定義式を考えます。

　$V$次元ベクトルのパラメータが$\boldsymbol{\beta} = (\beta, \cdots, \beta)$のとき、正規化項の総和の項は

$$ \sum_{v=1}^V \beta = \underbrace{ \beta + \cdots + \beta }_{V} = V \beta $$

となり、総乗の項は

$$ \prod_{v=1}^V \Gamma(\beta) = \underbrace{ \Gamma(\beta) * \cdots * \Gamma(\beta) }_{V} = \Gamma(\beta)^V $$

となります。
　よって、一様なパラメータのディリクレ分布は、次の式になります。

$$ \mathrm{Dir}(\boldsymbol{\phi} | \beta \cdots \beta) = \frac{ \Gamma(\beta V) }{ \Gamma(\beta)^V } \prod_{v=1}^V \phi_v^{\beta-1} $$

ベータ分布との関係

　続いて、2次元の場合の定義式を考えます。次元数が2のとき、ディリクレ分布はベータ分布(Beta Distribution)になります。

　$V = 2$のとき、パラメータ$\boldsymbol{\beta} = (\beta_1, \beta_2)$について$\alpha = \beta_1, \beta = \beta_2$とおき、確率変数$\boldsymbol{\phi} = (\phi_1, \phi_2)$について$\phi_2 = 1 - \phi_1$になります。

$$ \begin{aligned} \mathrm{Dir}(\boldsymbol{\phi} = (\phi_1, 1 - \phi_1) | \boldsymbol{\beta} = (\alpha, \beta)) &= \frac{ \Gamma( \sum_{v=1}^2 \beta_v ) }{ \prod_{v=1}^2 \Gamma(\beta_v) } \prod_{v=1}^2 \phi_v^{\beta_v-1} \\ &= \frac{ \Gamma(\beta_1 + \beta_2) }{ \Gamma(\beta_1) \Gamma(\beta_2) } \phi_1^{\beta_1 -1} \phi_2^{\beta_2 -1} \\ &= \frac{ \Gamma(\alpha + \beta) }{ \Gamma(\alpha) \Gamma(\beta) } \phi_1^{\alpha-1} (1 - \phi_1)^{\beta-1} = \mathrm{Beta}(\phi = \phi_1 | \alpha, \beta) \end{aligned} $$

　パラメータが$\alpha, \beta$のベータ分布の定義式と一致しました。

統計量の計算式

　ベータ分布の統計量を確認します。詳しくは「ディリクレ分布の統計量の導出 - からっぽのしょこ」を参照してください。

　パラメータの総和を

$$ \hat{\beta} = \sum_{v=1}^V \beta_v $$

とおきます。

　ディリクレ分布の期待値・分散・最頻値は、それぞれ次の式で計算できます。

$$ \begin{aligned} \mathbb{E}[\phi_v] &= \frac{\beta_v}{\hat{\beta}} \\ \mathbb{V}[\phi_v] &= \frac{ \beta_v (\hat{\beta}-\beta_v) }{ \hat{\beta}^2 (\hat{\beta} + 1) } \\ \mathrm{mode}[\phi_v] &= \frac{\beta_v - 1}{\hat{\beta} - V} \qquad (\beta_v > 1) \end{aligned} $$

　$V = 2$のとき$\beta_1 = \alpha, \beta_2 = \beta$とすると、期待値は$\frac{\beta_1}{\beta_1 + \beta_2} = \frac{\alpha}{\alpha + \beta}$、分散は$\frac{\beta_1 \beta_2}{(\beta_1 + \beta_2)^2 (\beta_1 + \beta_2 + 1)} = \frac{\alpha \beta}{(\alpha + \beta)^2 (\alpha + \beta + 1)}$、最頻値は$\frac{\beta_1 - 1}{\beta_1 + \beta_2 - 2} = \frac{\alpha - 1}{\alpha + \beta - 2}$となり、ベータ分布と一致します。

　また、共分散・対数の期待値は、次の式で計算できます。

$$ \begin{aligned} \mathrm{Cov}[\phi_i, \phi_j] &= - \frac{ \beta_i \beta_j }{ \hat{\beta}^2 (\hat{\beta} + 1) } \qquad (i \neq j) \\ \mathbb{E}[\log \phi_v] &= \Psi(\beta_v) - \Psi(\hat{\beta}) \end{aligned} $$

　$\Psi(x)$はディガンマ関数です。

　この記事では、ディリクレ分布の定義式を確認しました。次は、正規化項を導出します。

参考文献

岩田具治『トピックモデル』(機械学習プロフェッショナルシリーズ)講談社,2015年.

おわりに

　加筆修正の際に「統計量の導出」から記事を分割して青トピシリーズから独立させました。

【次の内容】

　次にあたる分布って何ですか。