からっぽのしょこ

読んだら書く!書いたら読む!同じ事は二度調べ(たく)ない

【R】二項分布のパラメータの可視化

はじめに

 機械学習や統計学で登場する各種の確率分布について、「計算式の導出・計算のスクラッチ実装・計算過程や結果の可視化」などの「数式・プログラム・図」を用いた解説により、様々な角度から理解を目指すシリーズです。

 この記事では、二項分布のパラメータの影響についてR言語を使って確認します。

【前の内容】

www.anarchive-beta.com

【他の内容】

www.anarchive-beta.com

【今回の内容】

二項分布のパラメータの可視化

 二項分布(Binomial distribution)のグラフやアニメーションを作成して、パラメータの影響を図で確認します。この記事では、Rのggplot2パッケージを利用して作図します。
 二項分布については「二項分布の定義式 - からっぽのしょこ」、グラフ作成については「【R】二項分布の作図 - からっぽのしょこ」、Pythonを利用する場合は「二項分布|確率分布の可視化」を参照してください。

パラメータの影響

 前の記事(「分布の作図」)では、複数のパラメータのグラフを並べて描画しました。

二項分布のグラフ

 この記事では、パラメータの値を少しずつ変化させてグラフの変化をアニメーションで確認します。
 作図コードについては「Probability-Distribution/code/binomial/parameter.R at main · anemptyarchive/Probability-Distribution · GitHub」を参照してください。

パラメータと形状の関係

 パラメータ  \phi を変化させたときの二項分布の形状の変化をアニメーションにします。

 パラメータ(成功確率)  \phi が大きくなるに従って、確率変数の値(成功回数)  x が大きいほど確率が高くなる(山が右に移動する)のが分かります。

 試行回数  M による変化をアニメーションにします。

 試行回数  M が増えるに従って、成功回数  x が大きいほど確率が高くなる(山が右に移動する)のが分かります。ただし、 x がとり得る範囲が広がるため、各値となる確率は小さくなり(山全体が低くなり)ます。

パラメータと統計量の関係

 パラメータ  \phi を変化させたときの二項分布の統計量の変化をアニメーションにします。

 期待値を破線、最頻値(mode)を鎖線、期待値を中心に標準偏差1つ分離れた値を点線、またその範囲を線分で示します。

  \phi が大きくなる(1に近付く)ほど、期待値と最頻値が大きくなる(右に移動する)のが分かります。また、 \phi = 0.5 に近いほど、標準偏差(分散)が大きくなり、分布の裾が広く確率の最大値が小さくなり(山がなだらかになり)ます。

 このことを、 \phi \phi (1 - \phi) の関係をグラフで確認します。

パラメータとパラメータの項の関係

 分散などの計算式について、 \phi = 0.5 のとき、成功確率  \phi と失敗確率  1 - \phi の積(  \phi に関する項)が最大になります。

 試行回数  M による変化をアニメーションにします。

  M が大きくなるほど、期待値や最頻値、標準偏差(分散)が大きくなるのが分かります。

 これらのことは、それぞれの計算式からも分かります。

 \displaystyle
\begin{aligned}
\mathbb{E}[x]
   &= M \phi
\\
\mathbb{V}[x]
   &= M \phi (1 - \phi)
\end{aligned}


パラメータとモーメントの関係

 パラメータ  \phi を変化させたときの二項分布の歪度と尖度の変化をアニメーションにします。

 分布の形状が分かりやすいように、 x がとりうる離散値ごとの確率値(バーの高さ)に点を表示し、緑色の実線の折れ線で結んでいます。
 形状の比較用に、二項分布の期待値  \mu = \mathbb{E}[x] と標準偏差  \sigma = \mathbb{s}[x] に一致するガウス分布(正規分布)を赤色の破線の曲線で示します。

  \phi = 0.5 のとき歪度  \mathrm{skew} = 0 になり左右対称な分布、 \phi \lt 0.5 のとき  \mathrm{skew} \gt 0 \phi \gt 0.5 のとき  \mathrm{skew} \lt 0 になります。
  \phi = 0.5 のとき尖度が最小になります。

 このことを、 \phi と計算式の分子の関係をグラフで確認します。

パラメータと歪度の項の関係

パラメータと尖度の項の関係


 試行回数  M による変化をアニメーションにします。

  M が大きくなるほど、歪度(skewness)と尖度(kurtosis)が0に近付く(正規分布の形状に近付く)のが分かります。

 これらのことは、それぞれの計算式からも分かります。

 \displaystyle
\begin{aligned}
\mathrm{Skewness}
    = \frac{
          1 - 2 \phi
      }{
          \sqrt{M \phi (1 - \phi)}
      }
\\
\mathrm{Kurtosis}
    = \frac{
          1 - 6 \phi (1 - \phi)
      }{
          M \phi (1 - \phi)
      }
\end{aligned}


 以上で、パラメータの影響を確認しました。

 この記事では、ポアソン分布のパラメータの影響を可視化しました。次の記事では、乱数を生成します。

参考文献

おわりに

 加筆修正の際に「【R】二項分布の作図」から記事を分割しました。

 2025年8月16日は、BEYOOOOONDSの小林萌花さんの25歳のお誕生日です♪

 ほのピアノを未だに聴いたことがないんだよなぁ。ぜひ聴きたい。イラストや服も見る機会はあるのだろうか。

【次の内容】

www.anarchive-beta.com