からっぽのしょこ

読んだら書く!書いたら読む!同じ事は二度調べ(たく)ない

負の二項分布の定義式

はじめに

 機械学習や統計学で登場する各種の確率分布について、「計算式の導出・計算のスクラッチ実装・計算過程や結果の可視化」などの「数式・プログラム・図」を用いた解説により、様々な角度から理解を目指すシリーズです。

 この記事では、負の二項分布の定義について数式を使って確認します。

【前の内容】

www.anarchive-beta.com

【他の内容】

www.anarchive-beta.com

【今回の内容】

負の二項分布の定義式

 負の二項分布(Negative Binomial distribution)の定義式や、関連する計算式を確認します。

変数・パラメータと定義式

 コインの裏表やくじの当たり外れのように、成功・失敗の2値をとる事象(ベルヌーイ試行)を独立に複数回試行するときの「ある成功回数(一方の事象が発生する回数)に達するまでの失敗回数(他方の事象が発生する回数)」の確率分布を負の二項分布と言います。

 失敗回数(裏などの注目しない事象の発生回数)を  x で表します。 x は、0以上の整数(非負の整数)をとります。これを次のように表記します。

 \displaystyle
x \in \{0, 1, 2, \ldots\}

 成功回数(表などの注目する事象の発生回数)を  r で表します。 r は、0より大きい整数(正の整数)を満たす必要があります。

 \displaystyle
r \in \{1, 2, \ldots\}

 成功回数と失敗回数の和が試行回数なので、試行回数は  x + r で表わせます。
 成功確率(注目する事象の発生確率)を  \phi で表します。 \phi は、0から1の実数を満たす必要があります。

 \displaystyle
0 \leq \phi \leq 1

 これを  \phi \in (0, 1) とも表記します。
 失敗確率(注目しない事象の発生確率)は  1 - \phi で表わせます。

 負の二項分布は、パラメータ  r, p を用いて、次の式で定義されます。後の式変形での対応関係が分かりやすいように、成功確率を  p = \phi で表します。

 \displaystyle
\begin{align}
\mathrm{NBinomial}(x \mid r, p)
   &= \binom{x + r - 1}{x}
      p^r
      (1 - p)^x
\tag{1}\\
   &= \frac{\Gamma(x + r)}{x! \Gamma(r)}
      p^r
      (1 - p)^x
\tag{1'}
\end{align}

 ここで、 \binom{n}{m} は二項係数です。
  \mathrm{NB}(x \mid r, p) は、成功確率  p において  r 回成功するまでに  x 回失敗する確率です。

 失敗確率を  q = 1-p とすると、成功確率は  p = 1-q であり、定義式の  p q に置き換えます。

 \displaystyle
\begin{align}
\mathrm{NBinomial}(x \mid r, p)
   &= \binom{x + r - 1}{x}
      p^r
      (1 - p)^x
\tag{1}\\
   &= \binom{x + r - 1}{x}
      p^r
      q^x
\\
   &= \binom{x + r - 1}{x}
      (1 - q)^r
      q^x
    = \mathrm{NBinomial}(x \mid r, 1-q)
\tag{2}\\
   &= \frac{\Gamma(x + r)}{x! \Gamma(r)}
      (1 - q)^r
      q^x
\tag{2'}
\end{align}

 パラメータ  r, q を用いて表わせました。
  \mathrm{NB}(x \mid r, q) は、失敗確率  q において  r 回成功するまでに  x 回失敗する確率と言えます。

 試行回数を  y = x + r とすると、失敗回数は  x = y - r であり、定義式の  x y を置き換えます。

 \displaystyle
\begin{align}
\mathrm{NBinomial}(x \mid r, p)
   &= \binom{x + r - 1}{x}
      p^r
      (1 - p)^x
\tag{1}\\
   &= \binom{y - 1}{y - r}
      p^r
      (1 - p)^{y - r}
    = \mathrm{NBinomial}(y \mid r, p)
\tag{3}\\
   &= \frac{\Gamma(y)}{(y - r)! \Gamma(r)}
      p^r
      (1 - p)^{y - r}
\tag{3'}
\end{align}

途中式の途中式(クリックで展開)


 二項係数について、次のように変形できます。

 \displaystyle
\binom{x + r - 1}{x}
    = \binom{y - 1}{y - r}
    = \binom{y - 1}{r - 1}
    = \binom{y - 1}{x}
  •  x = y-r より、 x + r-1 = (y-r) + r-1 = y-1 となります。
  • 二項係数の性質  \binom{n}{m} = \binom{n}{n-m} より、 (y-1) - (y-r) = r-1 となります。
  •  r = y-x より、 y-r = y - (y-x) = x となります。

 変数  y とパラメータ  r, p を用いて表わせました。
  \mathrm{NB}(y \mid r, p) は、成功確率  p において  r 回成功するまでに  y 回試行する確率と言えます。

 対数をとった負の二項分布は、次の式になります。

 \displaystyle
\begin{align}
\log \mathrm{NBinomial}(x \mid r, p)
   &= \log \Gamma(x + r)
      - \log x!
      - \log \Gamma(r)
\\
   &\quad
      + r \log p
      + x \log (1 - p)
\end{align}

途中式の途中式(クリックで展開)


 対数の性質  \log (x y) = \log x + \log y \log \frac{x}{y} = \log x - \log y \log x^a = a \log x により、式を変形しています。



組み合わせの項

 二項係数(組み合わせの項)についてのいくつかの表記を確認します。

 二項係数の性質  \binom{n}{m} = \binom{n}{n-m} より、変形します。

 \displaystyle
\binom{x + r - 1}{x}
    = \binom{x + r - 1}{r - 1}

 二項係数の2つの表記  \binom{n}{m} = {}_n\mathrm{C}_m より、置き換えます。また、二項係数の性質  {}_{n}\mathrm{C}_{m} = {}_{n}\mathrm{C}_{n-m} より、変形します。

 \displaystyle
\binom{x + r - 1}{x}
    = {}_{x+r-1}\mathrm{C}_{x}
    = {}_{x+r-1}\mathrm{C}_{r-1}

 二項係数の定義  \binom{n}{m} = \frac{n!}{m! (n-m)!} {}_{n}\mathrm{C}_{m} = \frac{n!}{m! (n-m)!} より、置き換えます。

 \displaystyle
\binom{x + r - 1}{x}
    = {}_{x+r-1}\mathrm{C}_{x}
    = \frac{(x + r - 1)!}{x! (r - 1)!}

 ガンマ関数の性質  \Gamma(x) = (x-1)! より、置き換えます。

 \displaystyle
\binom{x + r - 1}{x}
    = \frac{\Gamma(x + r)}{x! \Gamma(r)}

 それぞれ  x + r - 1 回の試行のうち失敗回数が  x (成功回数が  r-1 )となる組合せの数を表します。

スポンサードリンク

統計量の計算式

 二項分布の分布の期待値(平均)・分散・標準偏差・最頻値は、それぞれ次の式になります。

 \displaystyle
\begin{aligned}
\mathbb{E}[x]
   &= \frac{r (1 - \phi)}{\phi}
\\
\mathbb{V}[x]
   &= \frac{r (1 - \phi)}{\phi^2}
\\
\mathbb{s}[x]
   &= \frac{\sqrt{r (1 - \phi)}}{\phi}
\\
\mathrm{mode}[x]
   &= \begin{cases}
          \left\lfloor
              \frac{(r - 1) (1 - \phi)}{\phi}
          \right\rfloor
             &\quad
                (r \gt 1)
      \\
          0
             &\quad
                (r \leq 1)
      \end{cases}
\end{aligned}

 ここで、 \lfloor x \rfloor は床関数です。

モーメントの計算式

 負の二項分布の歪度・尖度は、次の式になります。

 \displaystyle
\begin{aligned}
\mathrm{Skewness}
   &= \frac{\mathbb{E}[(x - \mu)^3]}{\sigma^3}
    = \frac{
          2 - \phi
      }{
          \sqrt{(1 - \phi) r}
      }
\\
\mathrm{Kurtosis}
   &= \frac{\mathbb{E}[(x - \mu)^4]}{\sigma^4} - 3
    = \frac{6}{\phi}
      + \frac{
          \phi^2
        }{
          (1 - \phi) r
        }
\end{aligned}

 ここで、 x の期待値  \mu = \mathbb{E}[x]、標準偏差  \sigma = \sqrt{\mathbb{E}[(x - \mu)^2]} で表しています。

 この記事では、負の二項分布の定義式を確認しました。次からの記事では、負の二項分布について詳しくみていきます。

参考文献

おわりに

 過去にベイズ推論についてまとめた際に、負の二項分布について調べるとパラメータや式の表記揺れで混乱したので、(前回まではスルーしていましたが)今回まとめました。
 途中でpとかqが登場してごちゃごちゃするのは、揺れる表記の対応関係について書いておきたかったためです。

 2025年10月17日は、ロージークロニクルのリーダーの橋田歩果さんの二十歳のお誕生日です!!

(右端の方です♪)
 初めて直接見たのはグループとリーダーは決まったもののデビューは未定の頃だったと思うのですが、覚悟が決まっている感じがして印象深かったです。

【次の内容】

つづく