からっぽのしょこ

読んだら書く!書いたら読む!同じ事は二度調べ(たく)ない

モーメント

はじめに

 機械学習で登場する確率分布について色々な角度から理解したいシリーズです。

 確率分布・確率変数のモーメントを確認します。

【他の記事一覧】

www.anarchive-beta.com

【この記事の内容】

モーメント

 確率分布・確率変数の、期待値・分散・標準偏差、モーメント(積率)、歪度・尖度の定義を確認します。

期待値

 確率変数の期待値(平均)の定義を確認します。

 確率変数が離散値$x$をとる(離散確率分布$p(x)$の)場合は、総和を用いて期待値が定義されます。

$$ \mathbb{E}[x] = \sum_{x} x p(x) $$

 確率変数が連続値$x$をとる(連続確率分布$p(x)$の)場合は、積分を用いて期待値が定義されます。

$$ \mathbb{E}[x] = \int_{-\infty}^{\infty} x p(x) dx $$


分散

 分散の定義を確認して、計算式を導出します。

 分散は、偏差の2乗で定義されます。

$$ \mathbb{V}[x] = \mathbb{E}[(x - \mathbb{E}[x])^2] $$

 「変数」と「変数の期待値」の差を「偏差」と言います。

計算式の導出

 定義式の2乗の括弧を展開します。

$$ \begin{aligned} \mathbb{V}[x] &= \mathbb{E} \Bigl[ (x - \mathbb{E}[x])^2 \Bigr] \\ &= \mathbb{E} \Bigl[ x^2 - 2 \mathbb{E}[x] x + (\mathbb{E}[x])^2 \Bigr] \end{aligned} $$

 期待値の性質$\mathbb{E}[x + y] = \mathbb{E}[x] + \mathbb{E}[y]$より、項を分割します。

$$ \mathbb{V}[x] = \mathbb{E}[x^2] + \mathbb{E} \Bigl[ - 2 \mathbb{E}[x] x \Bigr] + \mathbb{E} \Bigl[ (\mathbb{E}[x])^2 \Bigr] $$

 期待値の性質$\mathbb{E}[a] = a$、$\mathbb{E}[a x] = a \mathbb{E}[x]$より、式を整理します。

$$ \begin{aligned} \mathbb{V}[x] &= \mathbb{E}[x^2] - 2 \mathbb{E}[x] \mathbb{E}[x] + (\mathbb{E}[x])^2 \\ &= \mathbb{E}[x^2] - (\mathbb{E}[x])^2 \end{aligned} $$

 期待値$\mathbb{E}[x]$は定数です。
 分散は、「$x$の2乗の期待値」と「$x$の期待値の2乗」の差で計算できるのが分かりました。

標準偏差

 標準偏差の定義を確認します。

 標準偏差は、分散の平方根で定義されます。

$$ s[x] = \sqrt{\mathbb{V}[x]} $$


モーメント

 確率変数のモーメント(積率)の定義を確認します。

 期待値$\mathbb{E}[x]$を原点周りの1次モーメントと呼びます。また、期待値を$\mu = \mathbb{E}[x]$で表して、分散$\mathbb{E}[(x - \mu)^2]$を期待値$\mu$周りの2次モーメントと呼びます。確率分布の形状を表す指標であるこれらの考え方を拡張します。

 原点周りの$k$次モーメントを

$$ \mathbb{E}[x^k] $$

で表します。
 また、定数$a$周りの$k$次モーメントを

$$ \mathbb{E}[(x - a)^k] $$

で表します。
 特に、期待値$\mu$周りの$k$次モーメントは、$k$次の中心モーメントとも呼び

$$ \mathbb{E}[(x - \mu)^k] $$

で表します。

原点周りのモーメントと期待値周りのモーメントの関係

 $k$次の中心モーメントについて、二項定理$(a + b)^n = \sum_{r=0}^n {}_nC_r a^r b^{n-r}$の変形を行います。

$$ \begin{aligned} \mathbb{E}[(x - \mu)^k] &= \mathbb{E} \left[ \sum_{l=0}^k {}_kC_l x^{k-l (- \mu)^l} \right] \\ &= \sum_{l=0}^k {}_kC_l \mathbb{E}[x^{k-l}] (- \mu)^l \end{aligned} $$

 「原点周りの$k - l$次モーメント$\mathbb{E}[x^{k-l}]$」と「原点周りの1次モーメント$\mu = \mathbb{E}[x]$の$l$乗」が現れました。

 この式に$k = 2$を代入してみます。

$$ \begin{aligned} \mathbb{E}[(x - \mu)^2] &= \sum_{l=0}^2 {}_2C_l \mathbb{E}[x^{2-l}] (- \mu)^l \\ &= \frac{2!}{(2 - 0)! 0!} \mathbb{E}[x^{2-0}] (- \mu)^0 + \frac{2!}{(2 - 1)! 1!} \mathbb{E}[x^{2-1}] (- \mu)^1 + \frac{2!}{(2 - 2)! 2!} \mathbb{E}[x^{2-2}] (- \mu)^2 \\ &= \mathbb{E}[x^2] - 2 \mathbb{E}[x] \mu + \mu^2 \end{aligned} $$

 定義より$0! = 1$、$x^0 = 1$です。
 $\mu = \mathbb{E}[x]$で置き換えます。

$$ \begin{aligned} \mathbb{E}[(x - \mu)^2] &= \mathbb{E}[x^2] - 2 \mathbb{E}[x] \mathbb{E}[x] + (\mathbb{E}[x])^2 \\ &= \mathbb{E}[x^2] - (\mathbb{E}[x])^2 = \mathbb{V}[x] \end{aligned} $$

 分散の計算式になりました。

歪度

 歪度の定義を確認します。

 歪度は、「3次中心モーメント」を「標準偏差の3乗」で割った値で定義されます。

$$ \frac{\mathbb{E}[(x - \mu)^3]}{\sigma^3} $$

 ここで、期待値(原点周りの1次モーメント)$\mu = \mathbb{E}[x]$、標準偏差(2次中心モーメントの平方根)$\sigma = \sqrt{\mathbb{E}[(x - \mu)^2]}$です。

 歪度は、分布の非対称性(歪み具合)を表す指標です。分布の形状が対称な場合は値が0になり、左側の裾が長い(左側に歪んでいる)場合は負の値に、右側の裾が長い(右側に歪んでいる)場合は正の値になります。

尖度

 尖度の定義を確認します。

 尖度は、「4次中心モーメント」を「標準偏差の4乗(分散の2乗)」で割った値で定義されます。

$$ \frac{\mathbb{E}[(x - \mu)^4]}{\sigma^4} $$

 ここで、期待値(原点周りの1次モーメント)$\mu = \mathbb{E}[x]$、標準偏差(2次中心モーメントの平方根)$\sigma = \sqrt{\mathbb{E}[(x - \mu)^2]}$です。

 尖度は、分布の期待値付近の集中度(尖り具合)を表す指標です。先端がなだらかで裾が短く細いほど値が小さくなり、先端が細く裾が長く太いほど値が大きくなります。

 ガウス分布の尖度は常に3になります。そこで、上の式から3を引いた

$$ \frac{\mathbb{E}[(x - \mu)^4]}{\sigma^4} - 3 $$

を尖度とする場合もあります。
 この定義を利用する場合は、ガウス分布の尖度は0になり、ガウス分布より先端がなだらかなで裾が短く細い場合は負の値になり、先端が細く裾が長く太い場合は0より大きくなります。

参考文献

  • 星野満博・西崎雅仁『数理統計の探求』晃洋書房,2012年.

おわりに

 尖度の説明が難しかった、というか理解できたのか微妙。グラフを描いて確認したいけどそれも意外と難しそう。個々の分布の歪度と尖度の可視化は「○○分布の作図」に追加していく予定です。

【次の内容】

www.anarchive-beta.com