はじめに
機械学習で登場する確率分布について色々な角度から理解したいシリーズです。
ベルヌーイ分布の統計量を導出します。
【他の記事一覧】
【この記事の内容】
ベルヌーイ分布の統計量の導出
ベルヌーイ分布(Bernoulli Distribution)の平均と分散を導出します。
定義式の確認
まずは、ベルヌーイ分布の定義式を確認します。
ベルヌーイ分布は、次の式で定義されます。詳しくは「ベルヌーイ分布の定義式 - からっぽのしょこ」を参照してください。
ここで、$x$は成功・失敗を表す値、$\phi$は成功確率($x = 1$となる確率)です。
確率変数の値$x$は、$x \in \{0, 1\}$となり、$x = 1$が成功・$x = 0$が失敗を表します。パラメータ$\phi$は、$\phi \in (0, 1)$を満たす必要があります。また、失敗確率($x = 0$となる確率)は$1 - \phi$で表せます。
ベルヌーイ分布の平均と分散は、次の式で計算できます。
この計算式を求めます。
平均の導出
確率分布が取り得る値$x$とその値となる確率$p(x)$とを掛けて、和をとった値が平均となる。
【途中式の途中式】
- 平均の定義式(1.5)より、式を立てる。
- $p(x) = \mathrm{Bernoulli}(x | \phi)$で置き換える。
- $\sum_{x=0}^{1}$を展開する。
- 式を整理する。
(平均が確率であるという意味ではなく、平均が確率の値と等しくなるという意味である。)
分散の導出
「1.1.1-7:確率の基礎【『トピックモデル』の勉強ノート】 - からっぽのしょこ」より、「$x$の2乗の平均」と「$x$の平均の2乗」との差が分散となる。そこでまずは、「$x$の2乗の平均」を求める。
「$x$の2乗の平均」と「$x$の平均の2乗」との差を求める。
参考書籍
- 岩田具治(2015)『トピックモデル』(機械学習プロフェッショナルシリーズ)講談社
おわりに
- 2020/06/17:加筆修正の上、記事を分割しました。
Osaka.Rのリモート朝モク会にて少しずつ修正しています。
- 2022/01/25:「定義の確認」と「グラフの作成」の加筆修正の際に青トピシリーズから独立させました。
これまでは1つの記事で完結している方が理解の助けになると思ってまとめていました。あと本の節に合わせる意味もありました。
記事が増えたことで重複する内容や複数の記事に跨って関連する内容が増えてきたり、加筆修正した際に記事が長くなりすぎたり、1つの記事にあれこれ詰め込むと読みにくくまた必要な情報にアクセスしにくかったり、と思い始めたので記事を分割していくことにしました。
そしたらこの記事は過去最少の文字数になった気がします。
【次の内容】