はじめに

　機械学習で登場する確率分布について色々な角度から理解したいシリーズです。

　この記事では、ベータ分布の期待値・分散・最頻値を導出します。

【前の内容】

www.anarchive-beta.com

【他の記事一覧】

www.anarchive-beta.com

【この記事の内容】

はじめに
ベータ分布の統計量の導出
参考書籍
おわりに

ベータ分布の統計量の導出

　ベータ分布(Beta Distribution)の統計量を導出します。ベータ分布については「ベータ分布の定義式 - からっぽのしょこ」を参照してください。

定義式の確認

　まずは、ベータ分布の定義式を確認します。

　ベータ分布は、次の式で定義されます。

$$ \mathrm{Beta}(\phi | \alpha, \beta) = \frac{ \Gamma(\alpha + \beta) }{ \Gamma(\alpha) \Gamma(\beta) } \phi^{\alpha-1} (1 - \phi)^{\beta-1} $$

　ここで、$\alpha, \beta$はパラメータ、$\Gamma(x)$はガンマ関数です。確率変数は$0 < \phi < 1$の値をとり、パラメータは$\alpha > 0, \beta > 0$を満たす必要があります。ガンマ関数については「ガンマ関数の性質の導出 - からっぽのしょこ」を参照してください。

　この式を用いて統計量を求めていきます。

期待値

　連続値をとる確率分布の期待値(mean)は、確率変数がとり得る値$x$とその値の確率密度$p(x)$の積を確率変数がとり得る範囲で積分$\mathbb{E}[x] = \int x p(x) dx$して求められます。

　$\phi$と$\phi$の確率密度$\mathrm{Beta}(\phi | \alpha, \beta)$の積を0から1の範囲で積分します。

$$ \begin{aligned} \mathbb{E}[\phi] &= \int_0^1 \phi \mathrm{Beta}(\phi | \alpha, \beta) d\phi \\ &= \int_0^1 \phi \frac{ \Gamma(\alpha + \beta) }{ \Gamma(\alpha) \Gamma(\beta) } \phi^{\alpha-1} (1 - \phi)^{\beta-1} d\phi \end{aligned} $$

　$\phi^{\alpha} = \phi \phi^{\alpha-1}$で、$\phi$の項をまとめます。

$$ \mathbb{E}[\phi] = \int_0^1 \frac{ \Gamma(\alpha + \beta) }{ \Gamma(\alpha) \Gamma(\beta) } \phi^{\alpha} (1 - \phi)^{\beta-1} d\phi $$

　$\alpha = \alpha' - 1$とおきます。

$$ \mathbb{E}[\phi] = \int_0^1 \frac{ \Gamma(\alpha' + \beta - 1) }{ \Gamma(\alpha' - 1) \Gamma(\beta) } \phi^{\alpha'-1} (1 - \phi)^{\beta-1} d\phi $$

　ガンマ関数の性質$\Gamma(x) = (x - 1) \Gamma(x - 1)$より、$\frac{\alpha' - 1}{\alpha' + \beta - 1} \frac{\alpha' + \beta - 1}{\alpha' - 1} = 1$を掛けて、項を変形します。

$$ \begin{aligned} \mathbb{E}[\phi] &= \int_0^1 \frac{\alpha' - 1}{\alpha' + \beta - 1} \frac{ (\alpha' + \beta - 1) \Gamma(\alpha' + \beta - 1) }{ (\alpha' - 1) \Gamma(\alpha' - 1) \Gamma(\beta) } \phi^{\alpha'-1} (1 - \phi)^{\beta-1} d\phi \\ &= \frac{\alpha' - 1}{\alpha' + \beta - 1} \int_0^1 \frac{ \Gamma(\alpha' + \beta) }{ \Gamma(\alpha') \Gamma(\beta) } \phi^{\alpha'-1} (1 - \phi)^{\beta-1} d\phi \end{aligned} $$

　$\frac{\alpha' - 1}{\alpha' + \beta - 1}$は、$\phi$と無関係なので(積分に影響しないので)$\int$の外に出せます。
　後の因子は、パラメータが$\alpha', \beta$のベータ分布に対する$\phi$がとり得る範囲の積分なので、1になります。

$$ \begin{aligned} \mathbb{E}[\phi] &= \frac{\alpha' - 1}{\alpha' + \beta - 1} \int_0^1 \mathrm{Beta}(\phi | \alpha', \beta) d\phi \\ &= \frac{\alpha' - 1}{\alpha' + \beta-1} 1 \end{aligned} $$

　$\alpha' = \alpha + 1$で、$\alpha$に戻します。

$$ \mathbb{E}[\phi] = \frac{\alpha}{\alpha + \beta} $$

　期待値の計算式が得られました。

2乗の期待値

　分散(variance)は、「$x$の2乗の期待値」と「$x$の期待値の2乗」の差$\mathbb{V}[x] = \mathbb{E}[x^2] - (\mathbb{E}[x])^2$で求められます。そこでまずは、$\phi$の2乗の期待値を求めます。

　$\phi$の2乗と$\phi$の確率密度$\mathrm{Beta}(\phi | \alpha, \beta)$の積を0から1の範囲で積分します。

$$ \begin{aligned} \mathbb{E}[\phi^2] &= \int_0^1 \phi^2 \mathrm{Beta}(\phi | \alpha, \beta) d\phi \\ &= \int_0^1 \phi^2 \frac{ \Gamma(\alpha + \beta) }{ \Gamma(\alpha) \Gamma(\beta) } \phi^{\alpha-1} (1 - \phi)^{\beta-1} d\phi \end{aligned} $$

　$\phi^{\alpha+1} = \phi^2 \phi^{\alpha-1}$で、$\phi$の項をまとめます。

$$ \mathbb{E}[\phi^2] = \int_0^1 \frac{ \Gamma(\alpha + \beta) }{ \Gamma(\alpha) \Gamma(\beta) } \phi^{\alpha+1} (1 - \phi)^{\beta-1} d\phi $$

　$\alpha = \alpha' - 2$とおきます。

$$ \begin{aligned} \mathbb{E}[\phi^2] &= \int_0^1 \frac{ \Gamma(\alpha' + \beta - 2) }{ \Gamma(\alpha' - 2) \Gamma(\beta) } \phi^{(\alpha'-2)+1} (1 - \phi)^{\beta-1} d\phi \\ &= \int_0^1 \frac{ \Gamma(\alpha' + \beta - 2) }{ \Gamma(\alpha' - 2) \Gamma(\beta) } \phi^{\alpha'-1} (1 - \phi)^{\beta-1} d\phi \end{aligned} $$

　ガンマ関数の項について、$\frac{(\alpha' - 1) (\alpha' - 2)}{(\alpha' + \beta - 1) (\alpha' + \beta - 2)} \frac{(\alpha' + \beta - 1) (\alpha' + \beta - 2)}{(\alpha' - 1) (\alpha' - 2)} = 1$を掛けて変形して

$$ \begin{aligned} \frac{ \Gamma(\alpha' + \beta - 2) }{ \Gamma(\alpha - 2) \Gamma(\beta) } &= \frac{ (\alpha' - 1) (\alpha' - 2) }{ (\alpha' + \beta - 1) (\alpha' + \beta - 2) } \frac{ (\alpha' + \beta - 1) (\alpha' + \beta - 2) \Gamma(\alpha' + \beta - 2) }{ (\alpha' - 1) (\alpha' - 2) \Gamma(\alpha - 2) \Gamma(\beta) } \\ &= \frac{ (\alpha' - 1) (\alpha' - 2) }{ (\alpha' + \beta - 1) (\alpha' + \beta - 2) } \frac{ \Gamma(\alpha' + \beta) }{ \Gamma(\alpha) \Gamma(\beta) } \end{aligned} $$

で置き換えます。

$$ \begin{aligned} \mathbb{E}[\phi^2] &= \int_0^1 \frac{ (\alpha' - 2) (\alpha' - 1) }{ (\alpha' + \beta - 2) (\alpha' + \beta - 1) } \frac{\Gamma(\alpha' + \beta)}{\Gamma(\alpha') \Gamma(\beta)} \phi^{\alpha'-1} (1 - \phi)^{\beta-1} d\phi \\ &= \frac{ (\alpha' - 2) (\alpha' - 1) }{ (\alpha' + \beta - 2) (\alpha' + \beta - 1) } \int_0^1 \frac{\Gamma(\alpha' + \beta)}{\Gamma(\alpha') \Gamma(\beta)} \phi^{\alpha'-1} (1 - \phi)^{\beta-1} d\phi \end{aligned} $$

　後の因子は、パラメータが$\alpha', \beta$のベータ分布の積分なので、1になり消えます。

$$ \begin{aligned} \mathbb{E}[\phi^2] &= \frac{ (\alpha' - 2) (\alpha' - 1) }{ (\alpha' + \beta - 2) (\alpha' + \beta - 1) } \int_0^1 \mathrm{Beta}(\phi | \alpha', \beta) d\phi \\ &= \frac{ (\alpha' - 2) (\alpha' - 1) }{ (\alpha' + \beta - 2) (\alpha' + \beta - 1) } 1 \end{aligned} $$

　$\alpha' = \alpha + 2$で、$\alpha$に戻します。

$$ \mathbb{E}[\phi^2] = \frac{ \alpha (\alpha + 1) }{ (\alpha + \beta) (\alpha + \beta + 1) } $$

　2乗の期待値が求まりました。

分散

　$\phi^2$の期待値と$\phi$の期待値の2乗の差を求めます。

$$ \begin{aligned} \mathbb{V}[\phi] &= \mathbb{E}[\phi^2] - (\mathbb{E}[\phi])^2 \\ &= \frac{ \alpha (\alpha + 1) }{ (\alpha + \beta) (\alpha + \beta + 1) } - \left( \frac{\alpha}{\alpha + \beta} \right)^2 \end{aligned} $$

　通分して式を整理します。

$$ \begin{aligned} \mathbb{V}[\phi] &= \frac{ \alpha (\alpha + 1) }{ (\alpha + \beta) (\alpha + \beta + 1) } \frac{ (\alpha + \beta) }{ (\alpha + \beta) } - \frac{ \alpha^2 }{ (\alpha + \beta)^2 } \frac{ (\alpha + \beta + 1) }{ (\alpha + \beta + 1) } \\ &= \frac{ \alpha^3 + \alpha^2 + \alpha^2 \beta + \alpha \beta }{ (\alpha + \beta) (\alpha + \beta+1) } - \frac{ \alpha^3 + \alpha^2 \beta + \alpha^2 }{ (\alpha + \beta + 1) } \\ &= \frac{ \alpha \beta }{ (\alpha + \beta)^2 (\alpha + \beta + 1) } \end{aligned} $$

　分散の計算式が得られました。

最頻値

　連続値をとる確率分布の最頻値(mode)は、$x$についての確率密度関数$p(x)$の微分$\frac{d p(x)}{d x}$が0となる$x$です。

　ベータ分布の確率密度関数$\mathrm{Beta}(\phi | \alpha, \beta)$を$\phi$で微分することを考えます。

$$ \begin{aligned} \frac{\partial \mathrm{Beta}(\phi | \alpha, \beta)}{\partial \phi} &= \frac{\partial}{\partial \phi} \left\{ \frac{\Gamma(\alpha + \beta)}{\Gamma(\alpha) \Gamma(\beta)} \phi^{\alpha-1} (1 - \phi)^{\beta-1} \right\} \\ &= \frac{\Gamma(\alpha + \beta)}{\Gamma(\alpha) \Gamma(\beta)} \frac{\partial}{\partial \phi} \Bigl\{ \phi^{\alpha-1} (1 - \phi)^{\beta-1} \Bigr\} \end{aligned} $$

　$\phi^{\alpha-1} (1 - \phi)^{\beta-1}$の微分は、積の微分$\{f(\phi) g(\phi)\}' = f'(\phi) g(\phi) + f(\phi) g'(\phi)$です。$\phi^{\alpha-1}$を$f(\phi)$、$(1 - \phi)^{\beta-1}$を$g(\phi)$として、式を変形します。

$$ \frac{\partial}{\partial \phi} \Bigl\{ \phi^{\alpha-1} (1 - \phi)^{\beta-1} \Bigr\} = \frac{\partial \phi^{\alpha-1}}{\partial \phi} (1 - \phi)^{\beta-1} + \phi^{\alpha-1} \frac{\partial (1 - \phi)^{\beta-1}}{\partial \phi} $$

　前の項の微分は

$$ \frac{\partial \phi^{\alpha-1}}{\partial \phi} = (\alpha - 1) \phi^{\alpha-2} $$

となります。
　また後の項の微分は、合成関数の微分$\{g(h(\phi))\}' = g'(h(\phi)) h'(\phi)$です。$(1 - \phi)^{\beta-1}$を$g(h(\phi))$、$1 - \phi$を$h(\phi)$として

$$ \begin{aligned} \frac{\partial (1 - \phi)^{\beta-1}}{\partial \phi} &= (\beta - 1) (1 - \phi)^{\beta-2} \frac{\partial (1 - \phi)}{\partial \phi} \\ &= (\beta - 1) (1 - \phi)^{\beta-2} (- 1) \\ &= - (\beta - 1) (1 - \phi)^{\beta-2} \end{aligned} $$

となります。
　それぞれ代入して式を整理します。

$$ \begin{aligned} \frac{\partial \mathrm{Beta}(\phi | \alpha, \beta)}{\partial \phi} &= \frac{\Gamma(\alpha + \beta)}{\Gamma(\alpha) \Gamma(\beta)} \Bigl\{ (\alpha - 1) \phi^{\alpha-2} (1 - \phi)^{\beta-1} - (\beta - 1) \phi^{\alpha-1} (1 - \phi)^{\beta-2} \Bigr\} \\ &= \frac{\Gamma(\alpha + \beta)}{\Gamma(\alpha) \Gamma(\beta)} \phi^{\alpha-2} (1 - \phi)^{\beta-2} \Bigl\{ (\alpha - 1) (1 - \phi) - (\beta - 1) \phi \Bigr\} \end{aligned} $$

　ベータ分布の微分$\frac{\partial \mathrm{Beta}(\phi | \alpha, \beta)}{\partial \phi}$が求まりました。

　$\frac{\partial \mathrm{Beta}(\phi | \alpha, \beta)}{\partial \phi}$を0とおき、$\phi$について解きます。

$$ \begin{aligned} \frac{\partial \mathrm{Beta}(\phi | \alpha, \beta)}{\partial \phi} = \frac{\Gamma(\alpha + \beta)}{\Gamma(\alpha) \Gamma(\beta)} \phi^{\alpha-2} (1 - \phi)^{\beta-2} \Bigl\{ (\alpha - 1) (1 - \phi) & - (\beta - 1) \phi \Bigr\} = 0 \\ \Rightarrow (\alpha - 1) (1 - \phi) - (\beta - 1) \phi &= 0 \\ \Rightarrow \alpha - 1 - \alpha \phi + \phi - \beta \phi + \phi &= 0 \\ \Rightarrow (\alpha + \beta - 2) \phi &= \alpha - 1 \\ \Rightarrow \phi &= \frac{\alpha - 1}{\alpha + \beta - 2} = \mathrm{mode}[\phi] \qquad (\alpha> 1) \end{aligned} $$

　最頻値の計算式が得られました。$0 < \phi < 1$なので、$\alpha > 1, \beta > 1$を満たす必要があります。

　この記事では、ベータ分布の統計量を導出しました。

参考書籍

岩田具治(2015)『トピックモデル』(機械学習プロフェッショナルシリーズ)講談社

おわりに

2019/08/19：加筆修正しました。

　部分積分ちんぷんかんぷん。ベータ分布のy軸はx軸の値の出やすさなんでしょうけど、~~具体的な数値って何を意味しているのでしょうか？~~(確率密度ですよ。)

2020/06/25：加筆修正しました。

2022/10/04：加筆修正しました。

　その際にいくつかの内容を分割してタイトルを変更し、また青トピシリーズから独立させました。

【次の内容】