からっぽのしょこ

読んだら書く!書いたら読む!同じ事は二度調べ(たく)ない

3.5:混合ユニグラムモデルの崩壊型ギブズサンプリング:一様なハイパーパラメータの場合【青トピックモデルのノート】

はじめに

 『トピックモデル』(MLPシリーズ)の勉強会資料のまとめです。各種モデルやアルゴリズムを「数式」と「プログラム」を用いて解説します。
 本の補助として読んでください。

 この記事では、混合カテゴリモデルに対する崩壊型ギブスサンプリングの数式の行間を埋めます。

【前節の内容】

www.anarchive-beta.com

【他の節の内容】

www.anarchive-beta.com

【この節の内容】

3.5 混合ユニグラムモデルの崩壊型ギブズサンプリング:一様なハイパーパラメータの場合

 混合ユニグラムモデル(mixture of unigram models)に対する不動点反復法(固定点反復法・fixed point iteration)を用いた崩壊型ギブスサンプリング(周辺化ギブスサンプリング・collapsed Gibbs sampling)におけるパラメータの計算式を導出する。この記事では、ハイパーパラメータが一様な値の場合を扱う。
 混合ユニグラムモデルの定義や記号については「3.5:混合ユニグラムモデルのギブスサンプリング【『トピックモデル』の勉強ノート】 - からっぽのしょこ」、ハイパーパラメータが多様な値の場合については「3.5:混合ユニグラムモデルの崩壊型ギブズサンプリング:多様なハイパーパラメータの場合【青トピックモデルのノート】 - からっぽのしょこ」を参照のこと。

パラメータの周辺化の導出

 まずは、サンプリング式や更新式の導出に用いる文書集合とトピック集合の周辺分布の式を導出する。

 ここでは、トピック分布のハイパーパラメータ  \boldsymbol{\alpha} = (\alpha_1, \cdots, \alpha_K) と単語分布のハイパーパラメータ  \boldsymbol{\beta} = (\beta_1, \cdots, \beta_V) をそれぞれ一様な値  \alpha_1 = \cdots = \alpha_K = \alpha \beta_1 = \cdots = \beta_V = \beta として、 \alpha, \beta で表す(  K, V 次元ベクトルをスカラで表記する)。

結合周辺分布

 パラメータ  \boldsymbol{\theta}, \boldsymbol{\Phi} を周辺化(積分消去)したときの文書集合  \mathbf{W} とトピック集合  \mathbf{z} の結合分布(同時分布)を求める。

 \displaystyle
p(\mathbf{W}, \mathbf{z} \mid \alpha, \beta)
    = \iint
          p(\mathbf{W}, \mathbf{z}, \boldsymbol{\theta}, \boldsymbol{\Phi} \mid \alpha, \beta)
      \mathrm{d} \boldsymbol{\theta} \mathrm{d} \boldsymbol{\Phi}

 混合ユニグラムモデルの生成過程(依存関係)に従って、 \mathbf{W}, \mathbf{z} の結合分布を分割する。

 \displaystyle
p(\mathbf{W}, \mathbf{z} \mid \alpha, \beta)
    = p(\mathbf{z} \mid \alpha)
      p(\mathbf{W} \mid \mathbf{z}, \beta)
\tag{1}

  \mathbf{W}, \mathbf{z} に関する周辺分布から得られることが分かった。

トピック集合の周辺分布

  \mathbf{W}, \mathbf{z} の結合分布の式(1)の前の項は、トピック分布のパラメータ  \boldsymbol{\theta} の事前分布  p(\boldsymbol{\theta} \mid \alpha) を用いたトピック集合  \mathbf{z} の周辺分布である。
 この式について、パラメータを明示して変形する。

 \displaystyle
\begin{aligned}
p(\mathbf{z} \mid \alpha)
   &= \int
          p(\mathbf{z}, \boldsymbol{\theta} \mid \alpha)
      \mathrm{d} \boldsymbol{\theta}
\\
   &= \int
          p(\mathbf{z} \mid \boldsymbol{\theta})
          p(\boldsymbol{\theta} \mid \alpha)
      \mathrm{d} \boldsymbol{\theta}
\\
   &= \int
          \left\{ \prod_{d=1}^D
              p(z_d \mid \boldsymbol{\theta})
          \right\}
          p(\boldsymbol{\theta} \mid \alpha)
      \mathrm{d} \boldsymbol{\theta}
\end{aligned}

途中式の途中式(クリックで展開)


  • 1: 周辺化された  \boldsymbol{\theta} を明示する。
  • 2: 潜在変数  \mathbf{z} とパラメータ  \boldsymbol{\theta} の項を分割する。
  • 3: トピック集合  \mathbf{z} の生成確率を、各文書のトピック  z_d の生成確率の積に分解する。

 さらに、確率分布を具体的な式に置き換えて、式を整理する。

 \displaystyle
\begin{align}
p(\mathbf{z} \mid \alpha)
   &= \int
          \left\{ \prod_{d=1}^D
              \theta_{z_d}
          \right\}
          \frac{\Gamma(\sum_{k=1}^K \alpha)}{\prod_{k=1}^K \Gamma(\alpha)}
          \left\{ \prod_{k=1}^K
              \theta_k^{\alpha-1}
          \right\}
      \mathrm{d} \boldsymbol{\theta}
\\
   &= \int
          \left\{ \prod_{k=1}^K
              \theta_k^{D_k}
          \right\}
          \frac{\Gamma(K \alpha)}{\Gamma(\alpha)^K}
          \left\{ \prod_{k=1}^K
              \theta_k^{\alpha-1}
          \right\}
      \mathrm{d} \boldsymbol{\theta}
\\
   &= \frac{\Gamma(K \alpha)}{\Gamma(\alpha)^K}
      \int \prod_{k=1}^K
          \theta_k^{D_k + \alpha-1}
      \mathrm{d} \boldsymbol{\theta}
\\
   &= \frac{\Gamma(K \alpha)}{\Gamma(\alpha)^K}
      \frac{
          \prod_{k=1}^K
              \Gamma(D_k + \alpha)
      }{
          \Gamma(\sum_{k=1}^K \{D_k + \alpha\})
      }
\\
   &= \frac{\Gamma(K \alpha)}{\Gamma(\alpha)^K}
      \frac{
          \prod_{k=1}^K
              \Gamma(D_k + \alpha)
      }{
          \Gamma(D + K \alpha)
      }
\tag{3.24}\\
   &= \frac{\Gamma(K \alpha)}{\Gamma(D + K \alpha)}
      \prod_{k=1}^K
          \frac{\Gamma(D_k + \alpha)}{\Gamma(\alpha)}
\tag{3.24'}
\end{align}

途中式の途中式(クリックで展開)


  • 1: 各文書のトピック  z_d はカテゴリ分布、トピック分布のパラメータ  \boldsymbol{\theta} はディリクレ分布を仮定しているので、それぞれ定義式に置き換える。
 \displaystyle
\begin{aligned}
p(z_d \mid \boldsymbol{\theta})
   &= \mathrm{Cat}(z_d \mid \boldsymbol{\theta})
    = \theta_{z_d}
\\
p(\boldsymbol{\theta} \mid \alpha)
   &= \mathrm{Dir}(\boldsymbol{\theta} \mid \alpha)
    = \frac{\Gamma(\sum_{k=1}^K \alpha)}{\prod_{k=1}^K \Gamma(\alpha)}
      \prod_{k=1}^K
          \theta_k^{\alpha-1}
\end{aligned}
  • 2: 各文書のトピック  z_d = k と各トピックの文書数  D_k を用いて、文書番号  d を用いた式から、トピック番号  k を用いた式に変換する。
 \displaystyle
\begin{aligned}
\prod_{d=1}^D
    \theta_{z_d}
   &= \underbrace{
          \theta_{z_1}
          * \theta_{z_2}
          * \cdots
          * \theta_{z_D}
      }_{D}
\\
   &= \underbrace{
          \theta_1 * \cdots * \theta_1
      }_{D_1}
      * \underbrace{
          \theta_2 * \cdots * \theta_2
      }_{D_2}
      * \cdots
      * \underbrace{
          \theta_K * \cdots * \theta_K
      }_{D_K}
\\
   &= \underbrace{
          \theta_1^{D_1}
          * \theta_2^{D_2}
          * \cdots
          * \theta_K^{D_K}
      }_{K}
\\
   &= \prod_{k=1}^K
          \theta_k^{D_k}
\end{aligned}

  z_d = k に対応する  D 個の  \theta_{\cdot} を、文書番号  d の順番に並んだ状態(1行目)から、トピック番号  k の順番に並べ替えて(2行目)、トピックごとに(同じトピックが割り当てられた  D_k 個の要素を)まとめて(3行目)いる。 D = \sum_{k=1}^K D_k なので、全体の要素数は変わっていない。

  • 2: 一様なハイパーパラメータなので、正規化項は  \sum_{k=1}^K \alpha = K \alpha \prod_{k=1}^K \Gamma(\alpha) = \Gamma(\alpha)^K となる。
  • 3:  \boldsymbol{\theta} と無関係な正規化項を  \int の外に出す。
  • 3:  \theta_k の項をまとめる。
  • 4: ディリクレ分布の正規化項(1.2.4項)より、積分全体を正規化項の逆数の形に置き換える。
  • 5: 各トピックの文書数  D_k と文書数  D の関係より、 D = \sum_{k=1}^K D_k である。
  • 6: 不動点反復法を行うために、 \prod_{k=1}^K \Gamma(\alpha) に戻し、分母を入れ替えて  \alpha, K \alpha の項をそれぞれまとめる。

  \mathbf{z} の周辺分布の式が得られた。

文書集合の周辺分布

  \mathbf{W}, \mathbf{z} の結合分布の式(1)の後の項は、単語分布のパラメータ  \boldsymbol{\Phi} の事前分布  p(\boldsymbol{\Phi} \mid \beta) を用いた文書集合  \mathbf{W} の周辺分布である。
 同様に、パラメータを明示して変形する。

 \displaystyle
\begin{aligned}
p(\mathbf{W} \mid \mathbf{z}, \beta)
   &= \int
          p(\mathbf{W}, \boldsymbol{\Phi} \mid \mathbf{z}, \beta)
      \mathrm{d} \boldsymbol{\Phi}
\\
   &= \int
          p(\mathbf{W} \mid \mathbf{z}, \boldsymbol{\Phi})
          p(\boldsymbol{\Phi} \mid \beta)
      \mathrm{d} \boldsymbol{\Phi}
\\
   &= \int
          \left\{ \prod_{d=1}^D
              p(\mathbf{w}_d \mid \boldsymbol{\phi}_{z_d})
          \right\}
          \prod_{k=1}^K
              p(\boldsymbol{\phi}_k \mid \beta)
      \mathrm{d} \boldsymbol{\Phi}
\\
   &= \int
          \left\{ \prod_{d=1}^D \prod_{n=1}^{N_d}
              p(w_{dn} \mid \boldsymbol{\phi}_{z_d})
          \right\}
          \prod_{k=1}^K
              p(\boldsymbol{\phi}_k \mid \beta)
      \mathrm{d} \boldsymbol{\Phi}
\end{aligned}

途中式の途中式(クリックで展開)


  • 1: 周辺化された  \boldsymbol{\Phi} を明示する。
  • 2: 観測変数  \mathbf{W} とパラメータ  \boldsymbol{\Phi} の項を分割する。
  • 3: 文書集合  \mathbf{W} の生成確率を、各文書(単語集合)  \mathbf{w}_d の生成確率の積に分解する。
  • 3: パラメータ集合  \boldsymbol{\Phi} の生成確率を、各トピックのパラメータ  \boldsymbol{\phi}_k の生成確率の積に分解する。
  • 4: 単語集合  \mathbf{w}_d の生成確率を、各単語  w_{dn} の生成確率の積に分解する。

 さらに、確率分布を具体的な式に置き換えて、式を整理する。

 \displaystyle
\begin{align}
p(\mathbf{W} \mid \mathbf{z}, \beta)
   &= \int
          \left\{ \prod_{d=1}^D \prod_{n=1}^{N_d}
              \phi_{z_dw_{dn}}
          \right\}
          \prod_{k=1}^K \left\{
              \frac{\Gamma(\sum_{v=1}^V \beta)}{\prod_{v=1}^V \Gamma(\beta)}
              \prod_{v=1}^V
                  \phi_{kv}^{\beta-1}
          \right\}
      \mathrm{d} \boldsymbol{\Phi}
\\
   &= \int
          \left\{ \prod_{k=1}^K \prod_{v=1}^V
              \phi_{kv}^{N_{kv}}
          \right\}
          \prod_{k=1}^K \left\{
              \frac{\Gamma(V \beta)}{\Gamma(\beta)^V}
              \prod_{v=1}^V
                  \phi_{kv}^{\beta-1}
          \right\}
      \mathrm{d} \boldsymbol{\Phi}
\\
   &= \prod_{k=1}^K \left\{
          \frac{\Gamma(V \beta)}{\Gamma(\beta)^V}
          \int
              \prod_{v=1}^V
                  \phi_{kv}^{N_{kv}+\beta-1}
          \mathrm{d} \boldsymbol{\phi}_k
      \right\}
\\
   &= \prod_{k=1}^K \left\{
          \frac{\Gamma(V \beta)}{\Gamma(\beta)^V}
          \frac{
              \prod_{v=1}^V
                  \Gamma(N_{kv} + \beta)
          }{
              \Gamma(\sum_{v=1}^V \{N_{kv} + \beta\})
          }
      \right\}
\\
   &= \prod_{k=1}^K \left\{
          \frac{\Gamma(V \beta)}{\Gamma(\beta)^V}
          \frac{
              \prod_{v=1}^V
                  \Gamma(N_{kv} + \beta)
          }{
              \Gamma(N_k + V \beta)
          }
      \right\}
\tag{3.25}\\
   &= \prod_{k=1}^K \left\{
          \frac{\Gamma(V \beta)}{\Gamma(N_k + V \beta)}
          \prod_{v=1}^V
              \frac{\Gamma(N_{kv} + \beta)}{\Gamma(\beta)}
      \right\}
\tag{3.25'}
\end{align}

途中式の途中式(クリックで展開)


  • 1: 各単語の語彙  w_{dn} はカテゴリ分布、各トピックの単語分布のパラメータ  \boldsymbol{\phi}_k はディリクレ分布を仮定しているので、それぞれ定義式に置き換える。
 \displaystyle
\begin{aligned}
p(w_{dn} \mid \boldsymbol{\phi}_{z_d})
   &= \mathrm{Cat}(w_{dn} \mid \boldsymbol{\phi}_{z_d})
    = \phi_{z_dw_{dn}}
\\
p(\boldsymbol{\phi}_k \mid \boldsymbol{\beta})
   &= \mathrm{Dir}(\boldsymbol{\phi}_k \mid \beta)
    = \frac{\Gamma(\sum_{v=1}^V \beta)}{\prod_{v=1}^V \Gamma(\beta)}
      \prod_{v=1}^V
          \phi_{kv}^{\beta-1}
\end{aligned}
  • 2: 各文書のトピック  z_d = k、各単語の語彙  w_{dn} = v とトピックごとの各語彙の単語数  N_{kv} を用いて、文書番号  d と単語番号  n を用いた式から、トピック番号  k と語彙番号  v を用いた式に変換する。

 先に、各単語の語彙  w_{dn} = v と文書ごとの各語彙の単語数  N_{dv} を用いて、単語番号  n を用いた式から、語彙番号  v を用いた式に変換する。

 \displaystyle
\begin{aligned}
\prod_{d=1}^D \prod_{n=1}^{N_d}
    \phi_{z_d,w_{d,n}}
   &= \prod_{d=1}^D \Bigl\{
          \underbrace{
              \phi_{z_d,w_{d,1}}
              * \phi_{z_d,w_{d,2}}
              * \cdots
              * \phi_{z_d,w_{d,N_1}}
          }_{N_d}
      \Bigr\}
\\
   &= \prod_{d=1}^D \Bigl\{
          \underbrace{
              \phi_{z_d,1} * \cdots * \phi_{z_d,1}
          }_{N_{d,1}}
          * \underbrace{
              \phi_{z_d,2} * \cdots * \phi_{z_d,2}
            }_{N_{d,2}}
          * \cdots
          * \underbrace{
              \phi_{z_d,V} * \cdots * \phi_{z_d,V}
          }_{N_{d,V}}
      \Bigr\}
\\
   &= \prod_{d=1}^D \Bigl\{
          \overbrace{
              \underbrace{
                  \phi_{z_d,1}^{N_{d,1}}
                  * \phi_{z_d,2}^{N_{d,2}}
                  * \cdots
                  * \phi_{z_d,V}^{N_{d,V}}
              }_{V}
          }^{N_d = \sum_{v=1}^V N_{d,v}}
      \Bigr\}
\\
   &= \prod_{d=1}^D \prod_{v=1}^V
          \phi_{z_d,v}^{N_{d,v}}
\end{aligned}

  w_{dn} = v に対応する  N_d 個の  \phi_{z_d,\cdot} を、単語番号  n の順番に並んだ状態(1行目)から、語彙番号  v の順番に並べ替えて(2行目)、語彙ごとに( 同じ語彙が出現した  N_{dv} 個の要素を)まとめて(3行目)いる。 N_d = \sum_{v=1}^V N_{dv} なので、全体の要素数は変わっていない。
 さらに、各文書のトピック  z_d = k とトピックごとの各語彙の単語数  N_{kv} を用いて、文書番号  d を用いた式から、トピック番号  k を用いた式に変換する。

 \displaystyle
\begin{aligned}
\prod_{d=1}^D \prod_{n=1}^{N_d}
    \phi_{z_d,w_{d,n}}
   &= \underbrace{
          \left\{ \prod_{v=1}^V
              \phi_{z_1,v}^{N_{1,v}}
          \right\}
          * \left\{ \prod_{v=1}^V
              \phi_{z_2,v}^{N_{2,v}}
            \right\}
          * \cdots
          * \left\{ \prod_{v=1}^V
              \phi_{z_D,v}^{N_{D,v}}
            \right\}
      }_{D}
\\
   &= \underbrace{ \overbrace{
          \left\{ \prod_{v=1}^V
              \phi_{1,v}^{N_{1:Z_d=1,v}}
          \right\}
          * \cdots
          * \left\{ \prod_{v=1}^V
              \phi_{1,v}^{N_{D_1:z_d=1,v}}
            \right\}
      }^{N_{1,v} = \sum_{d:z_d=1} N_{d,v}} }_{D_1}
      * \underbrace{ \overbrace{
          \left\{ \prod_{v=1}^V
              \phi_{2,v}^{N_{1:z_d=2,v}}
          \right\}
          * \cdots
          * \left\{ \prod_{v=1}^V
              \phi_{2,v}^{N_{D_2:z_d=2,v}}
            \right\}
        }^{N_{2,v} = \sum_{d:z_d=2} N_{d,v}} }_{D_2}
      * \cdots
      * \underbrace{ \overbrace{
          \left\{ \prod_{v=1}^V
              \phi_{K,v}^{N_{1:z_d=K,v}}
          \right\}
          * \cdots
          * \left\{ \prod_{v=1}^V
              \phi_{K,v}^{N_{D_K:z_d=K,v}}
            \right\}
        }^{N_{K,v} = \sum_{d:z_d=K} N_{d,v}} }_{D_K}
\\
   &= \underbrace{
          \left\{ \prod_{v=1}^V
              \phi_{1,v}^{N_{1,v}}
          \right\}
          * \left\{ \prod_{v=1}^V
              \phi_{2,v}^{N_{2,v}}
            \right\}
          * \cdots
          * \left\{ \prod_{v=1}^V
              \phi_{K,v}^{N_{K,v}}
            \right\}
      }_{K}
\\
   &= \prod_{k=1}^K \prod_{v=1}^V
          \phi_{k,v}^{N_{k,v}}
\end{aligned}

  z_d = k に対応する  D 個の  \prod_{v=1}^V \phi_{\cdot,v}^{N_{d,v}} を、文書番号  d の順番に並んだ状態(1行目)から、トピック番号  k の順番に並べ替えて(2行目)、トピックごとに(同じトピックが割り当てられた  D_k 個の要素を)まとめて(3行目)いる。
  N_{kv} は、トピック  k が割り当てられた全ての文書における語彙  v の単語数なので、 N_{kv} = \sum_{d:z_d=k} N_{dv} の計算によって  \phi_{kv} の項をまとめている。ここで、トピック  k が割り当てられた全ての文書番号を  d:z_d = k で表している。
 ここまでの変形に関して、 N = \sum_{k=1}^K \sum_{v=1}^V N_{kv} = \sum_{d=1}^D \sum_{v=1}^V N_{dv}  = \sum_{d=1}^D \sum_{n=1}^{N_d} 1 なので、全体の要素数は変わっていない。

  • 2: 一様なハイパーパラメータなので、正規化項は  \sum_{v=1}^V \beta = V \beta \prod_{v=1}^V \Gamma(\beta) = \Gamma(\beta)^V となる。
  • 3:  \boldsymbol{\Phi} と無関係な正規化項を  \int の外に出す。
  • 3:  \phi_{kv} の項をまとめる。
  • 4: ディリクレ分布の正規化項(1.2.4項)より、積分全体を正規化項の逆数の形に置き換える。
  • 5: トピックごとの各語彙の単語数  N_{kv} と各トピックの単語数  N_k の関係より、 N_k = \sum_{v=1}^V N_{kv} である。
  • 6: 不動点反復法を行うために、 \prod_{v=1}^V \Gamma(\beta) に戻し、分母を入れ替えて  \beta, V \beta の項をそれぞれまとめる。

  \mathbf{W} の周辺分布の式が得られた。

結合周辺分布

  \mathbf{W}, \mathbf{z} の結合分布の式(1)に、 \mathbf{Z} の周辺分布の式(3.24')と  \mathbf{W} の周辺分布の式(3.25')を代入する。

 \displaystyle
\begin{aligned}
p(\mathbf{W}, \mathbf{z} \mid \alpha, \beta)
   &= \frac{\Gamma(K \alpha)}{\Gamma(D + K \alpha)}
      \prod_{k=1}^K
          \frac{\Gamma(D_k + \alpha)}{\Gamma(\alpha)}
\\
   &\qquad * 
      \prod_{k=1}^K \left\{
          \frac{\Gamma(V \beta)}{\Gamma(N_k + V \beta)}
          \prod_{v=1}^V
              \frac{\Gamma(N_{kv} + \beta)}{\Gamma(\beta)}
      \right\}
\end{aligned}

  \mathbf{W}, \mathbf{z} の結合周辺分布の式が得られた。

 以上で、文書集合とトピック集合の周辺分布の式、結合周辺分布の式が得られた。

サンプリング式の導出

 最後は、文書集合とトピック集合の事後周辺分布を用いて、未知(新規)の単語と文書のトピックの事後予測分布を導出する。

 全ての文書集合  \mathbf{W} から文書  d の単語集合  \mathbf{w}_d を除いた文書集合を  \mathbf{W}_{\backslash d} = \{\mathbf{w}_1, \cdots, \mathbf{w}_{d-1}, \mathbf{w}_{d+1}, \cdots, \mathbf{w}_D\} とする。全ての文書集合は  \mathbf{W} = \{\mathbf{w}_d, \mathbf{W}_{\backslash d}\} で表わせる。
 全文書のトピック集合  \mathbf{z} から文書  d のトピック  z_d を除いたトピック集合を  \mathbf{z}_{\backslash d} = \{z_1, \cdots, z_{d-1}, z_{d+1}, \cdots, z_D\} とする。全てのトピック集合は  \mathbf{z} = \{z_d, \mathbf{z}_{\backslash d}\} で表せる。
 同様に、文書  d を除くトピック  k が割り当てられた文書数を  D_{k \backslash d}、文書  d を除くトピック  k が割り当てられた全文書の単語数を  N_{k \backslash d}、文書  d を除くトピック  k が割り当てられた全文書における語彙  v の単語数を  N_{kv \backslash d} で表す。

トピックのサンプリング確率の設定

 全ての文書集合  \mathbf{W} と文書  d 以外のトピック集合  \mathbf{z}_{\backslash d} が与えられた(条件とする)ときの文書  d のトピック  z_d の条件付き分布を求める。

 \displaystyle
\begin{align}
p(z_d = k \mid \mathbf{W}, \mathbf{z}_{\backslash d}, \alpha, \beta)
   &= \frac{
          p(\mathbf{w}_d, \mathbf{W}_{\backslash d}, z_d = k, \mathbf{z}_{\backslash d} \mid \alpha, \beta)
      }{
          p(\mathbf{w}_d, \mathbf{W}_{\backslash d}, \mathbf{z}_{\backslash d} \mid \alpha, \beta)
      }
\\
   &\propto
      p(\mathbf{w}_d, \mathbf{W}_{\backslash d}, z_d = k, \mathbf{z}_{\backslash d} \mid \alpha, \beta)
\\
   &= p(z_d = k \mid \mathbf{z}_{\backslash d}, \alpha)
      p(\mathbf{w}_d \mid \mathbf{W}_{\backslash d}, z_d = k, \mathbf{z}_{\backslash d}, \beta)
      p(\mathbf{z}_{\backslash d} \mid \alpha)
      p(\mathbf{W}_{\backslash d} \mid \mathbf{z}_{\backslash d}, \beta)
\\
   &\propto
      p(z_d = k \mid \mathbf{z}_{\backslash d}, \alpha)
      p(\mathbf{w}_d \mid \mathbf{W}_{\backslash d}, z_d = k, \mathbf{z}_{\backslash d}, \beta)
\tag{2}
\end{align}

途中式の途中式(クリックで展開)


  • 1: 条件付き確率  p(A \mid B, C) = \frac{p(A, B \mid C)}{p(B \mid C)} より、 z_d 以外の観測・潜在変数  \mathbf{w}_d, \mathbf{W}_{\backslash d}, \mathbf{z}_{\backslash d} を条件に移した式を立てる。
  • 2:  z_d と無関係な項を省く。
  • 3: 変数ごとの項に分割する。

 文書  d に関する変数  \mathbf{w}_d, z_d と文書  d 以外に関する変数  \mathbf{W}_{\backslash d}, \mathbf{z}_{\backslash d} の項を分割する。

 \displaystyle
p(\mathbf{w}_d, \mathbf{W}_{\backslash d}, z_d = k, \mathbf{z}_{\backslash d} \mid \alpha, \beta)
    = p(\mathbf{w}_d, z_d = k \mid \mathbf{W}_{\backslash d}, \mathbf{z}_{\backslash d}, \alpha, \beta)
      p(\mathbf{W}_{\backslash d}, \mathbf{z}_{\backslash d} \mid \alpha, \beta)

 さらに前の項の、観測変数  \mathbf{w}_d と潜在変数  z_d の項を分割する。

 \displaystyle
p(\mathbf{w}_d, z_d = k \mid \mathbf{W}_{\backslash d}, \mathbf{z}_{\backslash d}, \alpha, \beta)
    = p(\mathbf{w}_d \mid \mathbf{W}_{\backslash d}, z_d = k, \mathbf{z}_{\backslash d}, \beta)
      p(z_d = k \mid \mathbf{z}_{\backslash d}, \alpha)

 後の項の、観測変数  \mathbf{W}_{\backslash d} と潜在変数  \mathbf{z}_{\backslash d} の項を分割する。

 \displaystyle
p(\mathbf{W}_{\backslash d}, \mathbf{z}_{\backslash d} \mid \alpha, \beta)
    = p(\mathbf{W}_{\backslash d} \mid \mathbf{z}_{\backslash d}, \beta)
      p(\mathbf{z}_{\backslash d} \mid \alpha)
  • 4:  z_d と無関係な項を省く。

  z_d に影響しない項を省いて比例関係のみに注目すると、 \mathbf{w}_d, z_d に関する事後周辺分布から得られることが分かった。

トピックの事後周辺分布

  z_d の条件付き分布の式(2)の前の項は、文書  d 以外のトピック集合  \mathbf{z}_{\backslash d} が与えられたときの文書  d のトピック  z_d の事後分布である。
 この式は、 \mathbf{z} の周辺分布の式(3.24)を用いて求められる。

 \displaystyle
\begin{align}
p(z_d = k \mid \mathbf{z}_{\backslash d}, \alpha)
   &= \frac{
          p(z_d = k, \mathbf{z}_{\backslash d} \mid \alpha)
      }{
          p(\mathbf{z}_{\backslash d} \mid \alpha)
      }
\\
   &= \frac{\Gamma(K \alpha)}{\Gamma(\alpha)^K}
      \frac{
          \Gamma(D_{k \backslash d} + 1 + \alpha)
          \prod_{k' \neq k}
              \Gamma(D_{k' \backslash d} + \alpha)
      }{
          \Gamma(D + K \alpha)
      }
\\
   &\qquad * 
      \frac{\Gamma(\alpha)^K}{\Gamma(K \alpha)}
      \frac{
          \Gamma(D-1 + K \alpha)
      }{
          \prod_{k'=1}^K
              \Gamma(D_{k' \backslash d} + \alpha)
      }
\\
   &= \frac{
          (D_{k \backslash d} + \alpha)
          \Gamma(D_{k \backslash d} + \alpha)
          \prod_{k' \neq k}
              \Gamma(D_{k' \backslash d} + \alpha)
      }{
          (D-1 + K \alpha)
          \Gamma(D-1 + K \alpha)
      }
      \frac{
          \Gamma(D-1 + K \alpha)
      }{
          \prod_{k'=1}^K
              \Gamma(D_{k' \backslash d} + \alpha)
      }
\\
   &= \frac{
          D_{k \backslash d} + \alpha
      }{
          D-1 + K \alpha
      }
\tag{3.26}
\end{align}

途中式の途中式(クリックで展開)


  • 1: 条件付き確率より、 z_d 以外の潜在変数  \mathbf{z}_{\backslash d} を条件に移した式を立てる。
  • 2: 式(3.24)を用いて、分母分子を具体的な式に置き換える。

  \mathbf{z} の周辺分布(分子)は式(3.24)であり、 \mathbf{z}_{\backslash d} の周辺分布(分母)は式(3.24)から文書  d に関して取り除いた式である。

 \displaystyle
\begin{align}
p(z_d = k, \mathbf{z}_{\backslash d} \mid \alpha)
   &= \frac{\Gamma(K \alpha)}{\Gamma(\alpha)^K}
      \frac{
          \prod_{k'=1}^K
              \Gamma(D_{k'} + \alpha)
      }{
          \Gamma(D + K \alpha)
      }
\tag{3.24}\\
p(\mathbf{z}_{\backslash d} \mid \alpha)
   &= \frac{\Gamma(K \alpha)}{\Gamma(\alpha)^K}
      \frac{
          \prod_{k'=1}^K
              \Gamma(D_{k' \backslash d} + \alpha)
      }{
          \Gamma(D_{\backslash d} + K \alpha)
      }
\end{align}

 文書  d のトピック  z_d k のとき、 d を含めない数  D_{k \backslash d} は、 d を含めた数  D_k から  d の数  1 を引いた文書数となる。 k 以外のとき、 d の数が元々含まれていないので、 D_k である。

 \displaystyle
\begin{aligned}
D_{k \backslash d}
    = \begin{cases}
          D_k - 1
             &\quad
                (z_d = k) \\
          D_k
             &\quad
                (z_d \neq k)
      \end{cases}
\end{aligned}

 これを  D_k について解くと、次の関係が分かる。

 \displaystyle
\begin{aligned}
D_k
    = \begin{cases}
          D_{k \backslash d} + 1
             &\quad
                (z_d = k) \\
          D_{k \backslash d}
             &\quad
                (z_d \neq k)
      \end{cases}
\end{aligned}

  \mathbf{z} の周辺分布の式について、 D_k D_{k \backslash d} に置き換える。

 \displaystyle
\begin{aligned}
\prod_{k'=1}^K
    \Gamma(D_{k'} + \alpha)
   &= \Gamma(D_1 + \alpha)
      * \cdots
      * \Gamma(D_k + \alpha)
      * \cdots
      * \Gamma(D_K + \alpha)
\\
   &= \Gamma(D_{1 \backslash d} + \alpha)
      * \cdots
      * \Gamma(D_{k \backslash d} + 1 + \alpha)
      * \cdots
      * \Gamma(D_{K \backslash d} + \alpha)
\\
   &= \Gamma(D_{k \backslash d} + 1 + \alpha)
      \prod_{k' \neq k}
          \Gamma(D_{k' \backslash d} + \alpha)
\end{aligned}

  z_d = k のとき、 k' = 1, \dots, K のうち  k の項のみ形が異なるので、 \prod_{k=1}^K から取り出し、 k 以外の項の積を  \prod_{k' \neq k} で表す。

  \mathbf{z}_{\backslash d} の周辺分布の式について、文書  d を除く文書数  D_{\backslash d} = \sum_{k'=1}^K D_{k' \backslash d} = D-1 を置き換える。

  • 3: ガンマ関数の性質  \Gamma(x) = (x - 1) \Gamma(x - 1) より、項を変形する。
  • 4:  \prod_{k'=1}^K \Gamma(D_{k' \backslash d} + \alpha) = \Gamma(D_{k \backslash d} + \alpha) \prod_{k'\neq k} \Gamma(D_{k' \backslash d} + \alpha) なので、約分すると  k に関する項のみが残る。

  z_d のトピックの事後分布の式が得られた。

単語の事後周辺分布

  z_d の条件付き分布の式(2)の後の項は、文書  d 以外の文書集合  \mathbf{W}_{\backslash d} と全文書のトピック集合  \mathbf{z} が与えられたときの文書  d の単語集合  \mathbf{w}_d の事後分布である。
 同様に、 \mathbf{W} の周辺分布の式(3.25)を用いて求められる。

 \displaystyle
\begin{align}
p(\mathbf{w}_d \mid \mathbf{W}_{\backslash d}, z_d = k, \mathbf{z}_{\backslash d}, \beta)
   &= \frac{
          p(\mathbf{w}_d, \mathbf{W}_{\backslash d} \mid z_d = k, \mathbf{z}_{\backslash d}, \beta)
      }{
          p(\mathbf{W}_{\backslash d} \mid \mathbf{z}_{\backslash d}, \beta)
      }
\\
   &= \frac{
          \Gamma(V \beta)^K
      }{
          \Gamma(\beta)^{KV}
      }
      \frac{
          \prod_{v=1}^V
              \Gamma(N_{kv \backslash d} + N_{dv} + \beta)
      }{
          \Gamma(N_{k \backslash d} + N_d + V \beta)
      }
      \prod_{k' \neq k}
          \frac{
              \prod_{v=1}^V
                  \Gamma(N_{k'v \backslash d} + \beta)
          }{
              \Gamma(N_{k' \backslash d} + V \beta)
          }
\\
   &\qquad * 
      \frac{\Gamma(\beta)^{KV}}{\Gamma(V \beta)^K}
      \frac{
          \Gamma(N_{k \backslash d} + V \beta)
      }{
          \prod_{v=1}^V
              \Gamma(N_{kv \backslash d} + \beta)
      }
      \prod_{k' \neq k}
          \frac{
              \Gamma(N_{k' \backslash d} + V \beta)
          }{
              \prod_{v=1}^V
                  \Gamma(N_{k'v \backslash d} + \beta)
          }
\\
   &= \frac{
          \prod_{v=1}^V
              \Gamma(N_{kv \backslash d} + N_{dv} + \beta)
      }{
          \Gamma(N_{k \backslash d} + N_{d} + V \beta)
      }
      \frac{
          \Gamma(N_{k \backslash d} + V \beta)
      }{
          \prod_{v=1}^V
              \Gamma(N_{kv \backslash d} + \beta)
      }
\\
   &= \frac{
          \Gamma(N_{k \backslash d} + V \beta)
      }{
          \Gamma(N_{k \backslash d} + N_d + V \beta)
      }
      \prod_{v:N_{dv}>0}
          \frac{
              \Gamma(N_{kv \backslash d} + N_{dv} + \beta)
          }{
              \Gamma(N_{kv \backslash d} + \beta)
          }
\tag{3}
\end{align}

途中式の途中式(クリックで展開)


  • 1: 条件付き確率より、 \mathbf{w}_d 以外の観測変数  \mathbf{W}_{\backslash d} を条件に移した式を立てる。
  • 2: 式(3.25)を用いて、分母分子を具体的な式に置き換える。

  \mathbf{W} の周辺分布(分子)は式(3.25)であり、 \mathbf{W}_{\backslash d} の周辺分布(分母)は式(3.25)から文書  d に関して取り除いた式である。

 \displaystyle
\begin{align}
p(\mathbf{w}_d, \mathbf{W}_{\backslash d} \mid z_d = k, \mathbf{z}_{\backslash d}, \beta)
   &= \prod_{k'=1}^K \left\{
          \frac{\Gamma(V \beta)}{\Gamma(\beta)^V}
          \frac{
              \prod_{v=1}^V
                  \Gamma(N_{k'v} + \beta)
          }{
              \Gamma(N_{k'} + V \beta)
          }
      \right\}
\tag{3.25}\\
p(\mathbf{W}_{\backslash d} \mid \mathbf{z}_{\backslash d}, \beta)
   &= \prod_{k'=1}^K \left\{
          \frac{\Gamma(V \beta)}{\Gamma(\beta)^V}
          \frac{
              \prod_{v=1}^V
                  \Gamma(N_{k'v \backslash d} + \beta)
          }{
              \Gamma(N_{k' \backslash d} + V \beta)
          }
      \right\}
\end{align}

 文書  d のトピック  z_d k のとき、 d を含めない数  N_{kv \backslash d}, N_{k \backslash d} は、 d を含めた数  N_{kv}, N_k から  d の数  N_{dv}, N_d を引いた単語数となる。 k 以外のとき、 d の数が元々含まれていないので、 N_{kv}, N_k である。

 \displaystyle
\begin{aligned}
N_{kv \backslash d}
   &= \begin{cases}
          N_{kv} - N_{dv}
             &\quad
                (z_d = k) \\
          N_{kv}
             &\quad
                (z_d \neq k)
      \end{cases}
\\
N_{k \backslash d}
   &= \begin{cases}
          N_k - N_d
             &\quad
                (z_d = k) \\
          N_k
             &\quad
                (z_d \neq k)
      \end{cases}
\end{aligned}

 これを  N_{kv}, N_k についてそれぞれ解くと、次の関係が分かる。

 \displaystyle
\begin{aligned}
N_{kv}
   &= \begin{cases}
          N_{kv \backslash d} + N_{dv}
             &\quad
                (z_d = k) \\
          N_{kv \backslash d}
             &\quad
                (z_d \neq k)
      \end{cases}
\\
N_k
   &= \begin{cases}
          N_{k \backslash d} + N_d
             &\quad
                (z_d = k) \\
          N_{k \backslash d}
             &\quad
                (z_d \neq k)
      \end{cases}
\end{aligned}

  \mathbf{W} の周辺分布の式について、 N_{kv}, N_k N_{kv \backslash d}, N_{k \backslash d} に置き換える。

 \displaystyle
\begin{aligned}
\prod_{k'=1}^K
    \frac{\prod_{v=1}^V \Gamma(N_{k'v} + \beta)}{\Gamma(N_{k'} + V \beta)}
   &= \frac{\prod_{v=1}^V \Gamma(N_{1v} + \beta)}{\Gamma(N_1 + V \beta)}
      * \cdots
      * \frac{\prod_{v=1}^V \Gamma(N_{kv} + \beta)}{\Gamma(N_k + V \beta)}
      * \cdots
      * \frac{\prod_{v=1}^V \Gamma(N_{Kv} + \beta)}{\Gamma(N_K + V \beta)}
\\
   &= \frac{
          \prod_{v=1}^V
              \Gamma(N_{1v \backslash d} + \beta)
      }{
          \Gamma(N_{1 \backslash d} + V \beta)
      }
      * \cdots
      * \frac{
          \prod_{v=1}^V
              \Gamma(N_{kv \backslash d} + N_{dv} + \beta)
        }{
          \Gamma(N_{k \backslash d} + N_d + V \beta)
        }
      * \cdots
        \frac{
          \prod_{v=1}^V
              \Gamma(N_{Kv \backslash d} + \beta)
        }{
          \Gamma(N_{K \backslash d} + V \beta)
        }
\\
  &= \frac{
         \prod_{v=1}^V
             \Gamma(N_{kv \backslash d} + N_{dv} + \beta)
     }{
         \Gamma(N_{k \backslash d} + N_d + V \beta)
     }
     \prod_{k' \neq k}
         \frac{
             \prod_{v=1}^V
                 \Gamma(N_{k'v \backslash d} + \beta)
         }{
             \Gamma(N_{k' \backslash d} + V \beta)
         }
\end{aligned}

  z_d = k のとき、 k' = 1, \dots, K のうち  k の項のみ形が異なるので、 \prod_{k=1}^K から取り出し、 k 以外の項の積を  \prod_{k' \neq k} で表す。

  \mathbf{W}_{\backslash d} の周辺分布のについて、式の形を揃えるために、 k の項を  \prod_{k=1}^K から取り出しておく。

 \displaystyle
\prod_{k'=1}^K
    \frac{
        \prod_{v=1}^V
            \Gamma(N_{k'v \backslash d} + \beta)
    }{
        \Gamma(N_{k' \backslash d} + V \beta)
    }
= \frac{
          \prod_{v=1}^V
              \Gamma(N_{kv \backslash d} + \beta)
      }{
          \Gamma(N_{k \backslash d} + V \beta)
      }
      \prod_{k' \neq k}
          \frac{
              \prod_{v=1}^V
                  \Gamma(N_{k'v \backslash d} + \beta)
          }{
              \Gamma(N_{k' \backslash d} + V \beta)
          }

 正規化項に関して、 \prod_{k'=1}^K \frac{\Gamma(V \beta)}{\Gamma(\beta)^V} = \frac{\Gamma(V \beta)^K}{\Gamma(\beta)^{KV}} となる。

  • 3: 約分すると  k に関する項のみが残る。
  • 4: 分子を入れ替えて  \beta, V \beta の項をそれぞれまとめる。

 各文書において未観測の語彙(  N_{dv} = 0 である  v の項)に関して、 \Gamma(N_{kv \backslash d} + N_{dv} + \beta) = \Gamma(N_{kv \backslash d} + \beta) なので、 \frac{\Gamma(N_{kv \backslash d} + N_{dv} + \beta)}{\Gamma(N_{kv \backslash d} + \beta)} = 1 となり消える。観測された語彙(  N_{dv} \gt 0 である  v の項)に関する項の積を  \prod_{v: N_{dv}>0} で表す。


  \mathbf{w}_d の事後分布の式が得られた。

トピックのサンプリング確率

  z_d の条件付き分布の式(2)に、 z_d の事後分布の式(3.26)と  \mathbf{w}_d の事後分布の式(3)を代入する。

 \displaystyle
\begin{align}
p(z_d = k \mid \mathbf{W}, \mathbf{z}_{\backslash d}, \alpha, \beta)
   &\propto
      \frac{
          D_{k \backslash d} + \alpha
      }{
          D-1 + K \alpha
      }
      \frac{
          \Gamma(N_{k \backslash d} + V \beta)
      }{
          \Gamma(N_{k \backslash d} + N_d + V \beta)
      }
      \prod_{v:N_{dv}>0}
          \frac{
              \Gamma(N_{kv \backslash d} + N_{dv} + \beta)
          }{
              \Gamma(N_{kv \backslash d} + \beta)
          }
\\
   &\propto
      (D_{k \backslash d} + \alpha)
      \frac{
          \Gamma(N_{k \backslash d} + V \beta)
      }{
          \Gamma(N_{k \backslash d} + N_d + V \beta)
      }
      \prod_{v:N_{dv}>0}
          \frac{
              \Gamma(N_{kv \backslash d} + N_{dv} + \beta)
          }{
              \Gamma(N_{kv \backslash d} + \beta)
          }
\tag{3.27}
\end{align}

  z_d = k に影響しない項を省いた。
 他のトピックについても同様に計算でき、全てのトピックに関する総和で割ることで正規化できる。

 以上で、各文書のトピックのサンプリング式が得られた。

ハイパーパラメータの更新式の導出

 文書集合とトピック集合の周辺結合分布を最大化するハイパーパラメータを推定する。しかし、解析的に求められない。そこで、不動点反復法により周辺結合分布の下限を繰り返し更新することで最大化を行うためのハイパーパラメータの更新式を導出する。

周辺結合分布の下限の設定

  \mathbf{z} の周辺分布の式(3.24')を

 \displaystyle
\begin{align}
p(\mathbf{z} \mid \alpha)
   &= \frac{\Gamma(K \alpha)}{\Gamma(D + K \alpha)}
      \prod_{k=1}^K
          \frac{\Gamma(D_k + \alpha)}{\Gamma(\alpha)}
\tag{3.24'}\\
   &\geq
      \frac{\Gamma(K \alpha)}{\Gamma(D + K \alpha)}
      \exp \Bigl(
          (K \alpha - K \alpha^{\mathrm{new}})
          b_{\alpha}
      \Bigr)
      \prod_{k=1}^K \left\{
          \frac{\Gamma(D_k + \alpha)}{\Gamma(\alpha)}
          \alpha^{-a_{\alpha}}
          (\alpha^{\mathrm{new}})^{a_{\alpha}}
      \right\}
\end{align}

と変形し、また  \mathbf{W} の周辺分布の式(3.25')を

 \displaystyle
\begin{align}
p(\mathbf{W} \mid \mathbf{z}, \beta)
   &= \prod_{k=1}^K \left\{
          \frac{\Gamma(V \beta)}{\Gamma(N_k + V \beta)}
          \prod_{v=1}^V
              \frac{\Gamma(N_{kv} + \beta)}{\Gamma(\beta)}
      \right\}
\tag{3.25'}\\
   &\geq
      \prod_{k=1}^K \left[
          \frac{\Gamma(V \beta)}{\Gamma(N_k + V \beta)}
          \exp \Bigl(
              (V \beta - V \beta^{\mathrm{new}})
              b_{\beta}
          \Bigr)
          \prod_{v=1}^V \left\{
              \frac{\Gamma(N_{kv} + \beta)}{\Gamma(\beta)}
              \beta^{-a_{\beta}}
              (\beta^{\mathrm{new}})^{a_{\beta}}
          \right\}
      \right]
\end{align}

と変形して、 \mathbf{W}, \mathbf{z} の結合分布の式(1)を置き換え下限  G とおく。

 \displaystyle
\begin{aligned}
p(\mathbf{W}, \mathbf{z} \mid \alpha, \beta)
   &\geq
      \frac{\Gamma(K \alpha)}{\Gamma(D + K \alpha)}
      \exp \Bigl(
          (K \alpha - K \alpha^{\mathrm{new}})
          b_{\alpha}
      \Bigr)
\\
   &\qquad * 
      \prod_{k=1}^K \left\{
          \frac{\Gamma(D_k + \alpha)}{\Gamma(\alpha)}
          \alpha^{-a_{\alpha}}
          (\alpha^{\mathrm{new}})^{a_{\alpha}}
      \right\}
\\
   &\qquad * 
      \prod_{k=1}^K \Biggl[
          \frac{\Gamma(V \beta)}{\Gamma(N_k + V \beta)}
          \exp \Bigl(
              (V \beta - V \beta^{\mathrm{new}})
              b_{\beta}
          \Bigr)
      \Biggr.
\\
   &\qquad \qquad * 
      \Biggl.
          \prod_{v=1}^V \left\{
              \frac{\Gamma(N_{kv} + \beta)}{\Gamma(\beta)}
              \beta^{-a_{\beta}}
              (\beta^{\mathrm{new}})^{a_{\beta}}
          \right\}
      \Biggr]
    \equiv
      G
\end{aligned}

 また、次のようにおいた。

 \displaystyle
\begin{aligned}
a_{\alpha}
   &= \Bigl(
          \Psi(D_k + \alpha)
          - \Psi(\alpha)
      \Bigr)
      \alpha
\\
b_{\alpha}
   &= \Psi(D + K \alpha)
      - \Psi(K \alpha)
\\
a_{\beta}
   &= \Bigl(
          \Psi(N_{kv} + \beta)
          - \Psi(\beta)
      \Bigr)
      \beta
\\
b_{\beta}
   &= \Psi(N_k + V \beta)
     - \Psi(V \beta)
\end{aligned}
\tag{4}

途中式の途中式(クリックで展開)


  • 1: 対数ガンマとディガンマ関数の不等式を用いて、項を置き換える。

  \hat{x} \geq 0 に対して、 x \gt 0 n \geq 0 のとき、次の関係が成り立つ。

 \displaystyle
\begin{aligned}
\frac{\Gamma(x)}{\Gamma(n + x)}
   &\geq
      \frac{\Gamma(\hat{x})}{\Gamma(n + \hat{x})}
      \exp \Bigl(
          (\hat{x} - x) b
      \Bigr)
\\
b  &= \Psi(n + \hat{x})
      - \Psi(\hat{x})
\end{aligned}

 また、 \hat{x} \geq 0 に対して、 n \geq 1 のとき、次の関係が成り立つ。

 \displaystyle
\begin{aligned}
\frac{\Gamma(n + x)}{\Gamma(x)}
   &\geq
      \frac{\Gamma(n + \hat{x})}{\Gamma(\hat{x})}
      \hat{x}^{-a}
      x^a
\\
a  &= \Bigl(
          \Psi(n + \hat{x})
          - \Psi(\hat{x})
      \Bigr)
      \hat{x}
\end{aligned}

 現在の値(中心)  \hat{x} \alpha, \beta、更新後の値(変数)  x \alpha^{\mathrm{new}}, \beta^{\mathrm{new}} と対応させて下限の式に変形する。


 現在の値を  \alpha, \beta、更新後の値を  \alpha^{\mathrm{new}}, \beta^{\mathrm{new}} とする(  a, b の添字の  \alpha, \beta は識別用で計算上の意味はない)。周辺尤度に関して  \alpha, \beta の周りでテイラー展開(近似)して下限として用いる。
 下限への変形については「対数ガンマ関数とディガンマ関数の不等式の導出【青トピックモデルのノート】 - からっぽのしょこ」を参照のこと。

  \mathbf{W}, \mathbf{z} の結合分布の下限  G の対数をとり対数下限  F とおく。

 \displaystyle
\begin{aligned}
F  &= \log G
\\
   &= \log \frac{\Gamma(K \alpha)}{\Gamma(D + K \alpha)}
      + (K \alpha - K \alpha^{\mathrm{new}})
        b_{\alpha}
\\
   &\qquad
      + \sum_{k=1}^K \left\{
          \log \frac{\Gamma(D_k + \alpha)}{\Gamma(\alpha)}
          - a_{\alpha} \log \alpha
          + a_{\alpha} \log \alpha^{\mathrm{new}}
      \right\}
\\
   &\qquad
      + \sum_{k=1}^K \Biggl[
          \log \frac{\Gamma(V \beta)}{\Gamma(N_k + V \beta)}
          + (V \beta - V \beta^{\mathrm{new}})
            b_{\beta}
      \Biggr.
\\
   &\qquad \qquad
      \Biggl.
          + \sum_{v=1}^V \left\{
              \log \frac{\Gamma(N_{kv} + \beta)}{\Gamma(\beta)}
              - a_{\beta} \log \beta
              + a_{\beta} \log \beta^{\mathrm{new}}
          \right\}
      \Biggr]
\end{aligned}

  \mathbf{W}, \mathbf{z} の結合分布の対数下限の式が得られた。

トピック分布のハイパーパラメータ

  \mathbf{W}, \mathbf{z} の結合分布の対数下限  F から  \alpha^{\mathrm{new}} に関する項を取り出し(無関係な項を定数  \mathrm{const.} にまとめ)関数  F(\alpha^{\mathrm{new}}) とおく。

 \displaystyle
F(\alpha^{\mathrm{new}})
    = - K b_{\alpha} \alpha^{\mathrm{new}}
      + \sum_{k=1}^K
          a_{\alpha} \log \alpha^{\mathrm{new}}
      + \mathrm{const.}

 関数  F(\alpha^{\mathrm{new}}) \alpha^{\mathrm{new}} に関して微分する。

 \displaystyle
\begin{aligned}
\frac{\partial F(\alpha^{\mathrm{new}})}{\partial \alpha^{\mathrm{new}}}
   &= \frac{\partial}{\partial \alpha^{\mathrm{new}}} \left\{
          - K b_{\alpha} \alpha^{\mathrm{new}}
          + \sum_{k=1}^K
              a_{\alpha} \log \alpha^{\mathrm{new}}
          + \mathrm{const.}
      \right\}
\\
   &= \frac{\partial}{\partial \alpha^{\mathrm{new}}} \Bigl\{
          - K b_{\alpha} \alpha^{\mathrm{new}}
      \Bigr\}
      + \frac{\partial}{\partial \alpha^{\mathrm{new}}} \left\{
          \sum_{k=1}^K
              a_{\alpha} \log \alpha^{\mathrm{new}}
        \right\}
      + \frac{\partial \mathrm{const.}}{\partial \alpha^{\mathrm{new}}}
\\
   &= - K b_{\alpha}
      + \sum_{k=1}^K
          a_{\alpha}
          \frac{1}{\alpha^{\mathrm{new}}}
      + 0
\end{aligned}

途中式の途中式(クリックで展開)


  • 1:  F の式全体の微分を考える。ただし、 \alpha^{\mathrm{new}} に関する微分なので、 \alpha は定数として扱う。
  • 2: 和の微分  \{f(x) + g(x)\}' = f'(x) + g'(x) より、項ごとの微分の和に分割する。
  • 3:  \alpha^{\mathrm{new}} の係数は  \frac{\partial}{\partial \alpha^{\mathrm{new}}} の外に出せ、自然対数の微分は  \{\log x\}' = \frac{1}{x} である。

  \frac{\partial F(\alpha^{\mathrm{new}})}{\partial \alpha^{\mathrm{new}}} = 0 となる  \alpha^{\mathrm{new}} を求める。

 \displaystyle
\begin{align}
&&
- K b_{\alpha}
+ \frac{\sum_{k=1}^K a_{\alpha}}{\alpha^{\mathrm{new}}}
   &= 0
\\
\Rightarrow &&
\alpha^{\mathrm{new}}
   &= \frac{\sum_{k=1}^K a_{\alpha}}{K b_{\alpha}}
\\
\Rightarrow &&
   &= \frac{
          \sum_{k=1}^K \Bigl(
              \Psi(D_k + \alpha)
              - \Psi(\alpha)
          \Bigr)
          \alpha
      }{
          K \Bigl(
              \Psi(D + K \alpha)
              - \Psi(K \alpha)
          \Bigr)
      }
\\
\Rightarrow &&
   &= \alpha
      \frac{
          \sum_{k=1}^K
              \Psi(D_k + \alpha)
          - K \Psi(\alpha)
      }{
          K \Psi(D + K \alpha)
          - K \Psi(K \alpha)
      }
\tag{3.28}
\end{align}

途中式の途中式(クリックで展開)


  • 1:  \frac{\partial F(\alpha^{\mathrm{new}})}{\partial \alpha^{\mathrm{new}}} 0 とおく。
  • 2:  \alpha^{\mathrm{new}} について式を整理する。
  • 3:  a_{\alpha}, b_{\alpha} に式(4)を代入する。
  • 4: 括弧を展開する。

 不動点反復法によるハイパーパラメータの更新式が得られた。

  i 回目の更新において、 \alpha を更新前の値(  i-1 回目の更新値)  \alpha^{(i-1)} \alpha^{\mathrm{new}} を更新後の値(  i 回目の更新値)  \alpha^{(i)} とする。また、初期値は  \alpha^{(0)} とする。

 \displaystyle
\alpha^{(i)}
    = \alpha^{(i-1)}
      \frac{
          \sum_{k=1}^K
              \Psi(D_k + \alpha^{(i-1)})
          - K \Psi(\alpha^{(i-1)})
      }{
          K \Psi(D + K \alpha^{(i-1)})
          - K \Psi(K \alpha^{(i-1)})
      }

  \alpha の更新式が得られた。

単語分布のハイパーパラメータ

  \mathbf{W}, \mathbf{z} の結合分布の対数下限  F から  \beta^{\mathrm{new}} に関する項を取り出し関数  F(\beta^{\mathrm{new}}) とおく。

 \displaystyle
F(\beta^{\mathrm{new}})
    = \sum_{k=1}^K \left\{
          - V b_{\beta} \beta^{\mathrm{new}}
          + \sum_{v=1}^V
              a_{\beta} \log \beta^{\mathrm{new}}
      \right\}
      + \mathrm{const.}

 関数  F(\beta^{\mathrm{new}}) \beta^{\mathrm{new}} に関して微分する。

 \displaystyle
\begin{aligned}
\frac{\partial F(\beta^{\mathrm{new}})}{\partial \beta^{\mathrm{new}}}
   &= \frac{\partial}{\partial \beta^{\mathrm{new}}} \left\{
          \sum_{k=1}^K \left\{
              - V b_{\beta} \beta^{\mathrm{new}}
              + \sum_{v=1}^V
                  a_{\beta} \log \beta^{\mathrm{new}}
          \right\}
          + \mathrm{const.}
      \right\}
\\
   &= \frac{\partial}{\partial \beta^{\mathrm{new}}} \left\{
          - \sum_{k=1}^K
              V b_{\beta} \beta^{\mathrm{new}}
      \right\}
      + \frac{\partial}{\partial \beta^{\mathrm{new}}} \left\{
          \sum_{k=1}^K \sum_{v=1}^V
              a_{\beta} \log \beta^{\mathrm{new}}
          \right\}
      + \frac{\partial \mathrm{const.}}{\partial \beta^{\mathrm{new}}}
\\
   &= - \sum_{k=1}^K
          V b_{\beta}
      + \sum_{k=1}^K \sum_{v=1}^V
          a_{\beta}
          \frac{1}{\beta^{\mathrm{new}}}
      + 0
\end{aligned}

途中式の途中式(クリックで展開)


  • 1:  F の式全体の微分を考える。ただし、 \beta^{\mathrm{new}} に関する微分なので、 \beta は定数として扱う。
  • 2-3: 和の微分より、項ごとの微分の和に分割して、それぞれ係数を  \frac{\partial}{\partial \beta^{\mathrm{new}}} の外に出して、微分する。

  \frac{\partial F(\beta^{\mathrm{new}})}{\partial \beta^{\mathrm{new}}} = 0 となる  \beta^{\mathrm{new}} を求める。

 \displaystyle
\begin{align}
&&
- \sum_{k=1}^K
    V b_{\beta}
+ \frac{
      \sum_{k=1}^K \sum_{v=1}^V
          a_{\beta}
  }{
      \beta^{\mathrm{new}}
  }
   &= 0
\\
\Rightarrow &&
\beta^{\mathrm{new}}
   &= \frac{
          \sum_{k=1}^K \sum_{v=1}^V
              a_{\beta}
      }{
          \sum_{k=1}^K
              V b_{\beta}
      }
\\
\Rightarrow &&
   &= \frac{
          \sum_{k=1}^K \sum_{v=1}^V
              \Bigl(
                  \Psi(N_{kv} + \beta)
                  - \Psi(\beta)
              \Bigr)
              \beta
      }{
          \sum_{k=1}^K
              V \Bigl(
                  \Psi(N_k + V \beta)
                  - \Psi(V \beta)
              \Bigr)
      }
\\
\Rightarrow &&
   &= \beta
      \frac{
          \sum_{k=1}^K \sum_{v=1}^V
              \Psi(N_{kv} + \beta)
          - K V \Psi(\beta)
      }{
          \sum_{k=1}^K
              V \Psi(N_k + V \beta)
          - K V \Psi(V \beta)
      }
\tag{3.29}
\end{align}

途中式の途中式(クリックで展開)


  • 1:  \frac{\partial F(\beta^{\mathrm{new}})}{\partial \beta^{\mathrm{new}}} 0 とおく。
  • 2:  \beta^{\mathrm{new}} について式を整理する。
  • 3:  a_{\beta}, b_{\beta} に式(4)を代入する。
  • 4: 括弧を展開する。

 不動点反復法によるハイパーパラメータの更新式が得られた。

  i 回目の更新において、 \beta を更新前の値(  i-1 回目の更新値)  \beta^{(i-1)} \beta^{\mathrm{new}} を更新後の値(  i 回目の更新値)  \beta^{(i)} とする。また、初期値は  \beta^{(0)} とする。

 \displaystyle
\beta^{(i)}
    = \beta^{(i-1)}
      \frac{
          \sum_{k=1}^K \sum_{v=1}^V
              \Psi(N_{kv} + \beta^{(i-1)})
          - K V \Psi(\beta^{(i-1)})
      }{
          \sum_{k=1}^K
              V \Psi(N_k + V \beta^{(i-1)})
          - K V \Psi(V \beta^{(i-1)})
      }

  \beta の更新式が得られた。

 以上で、トピック分布と単語分布のハイパーパラメータの更新式が得られた。

事後予測分布の導出

 最後は、文書集合とトピック集合の事後周辺分布を用いて、未知(新規)の単語と文書のトピックの事後予測分布を導出する。

 新たに生成される(  D+1 番目の)文書のトピックを  z^{*}、その文書において新たに生成される(  1 番目の)単語(の語彙)を  w^{*} で表す。

トピックの事後予測分布の設定

 トピック集合  \mathbf{z} が与えられたときの未知の文書のトピック  z^{*} の予測分布を求める。

 \displaystyle
\begin{aligned}
p(z^{*} = k \mid \mathbf{Z}, \alpha)
   &= \int
          p(z^{*} = k, \boldsymbol{\theta} \mid \mathbf{z}, \alpha)
      \mathrm{d} \boldsymbol{\theta}
\\
   &= \int
          p(z^{*} = k \mid \boldsymbol{\theta})
          p(\boldsymbol{\theta} \mid \mathbf{Z}, \alpha)
      \mathrm{d} \boldsymbol{\theta}
\end{aligned}

途中式の途中式(クリックで展開)


  • 1: 観測(サンプリング)した潜在変数  \mathbf{z} と事前分布のパラメータ  \alpha を条件とする未観測の潜在変数  z^{*} とパラメータ  \boldsymbol{\theta} の結合分布を  \boldsymbol{\theta} に関して周辺化した式を立てる。
  • 2: 変数  z^{*} とパラメータ  \boldsymbol{\theta} の項を分割する。

  p(\boldsymbol{\theta} \mid \mathbf{z}, \alpha) は、 \mathbf{z} が与えられたときのトピック分布のパラメータ  \boldsymbol{\theta} の事後分布である。つまり、 p(z^{*} = k \mid \mathbf{z}, \alpha) は、 \boldsymbol{\theta} の事後分布を用いたトピック  z^{*} の周辺分布である。

トピック分布のパラメータ

  z^{*} の予測分布の式は、 \mathbf{z} の周辺分布の式(3.24)を用いて求められる。

 \displaystyle
\begin{aligned}
p(z^{*} = k \mid \mathbf{z}, \alpha)
   &= \frac{
          p(z^{*} = k, \mathbf{z} \mid \alpha)
      }{
          p(\mathbf{z} \mid \alpha)
      }
\\
   &= \frac{\Gamma(K \alpha)}{\Gamma(\alpha)^K}
      \frac{
          \Gamma(D_k+1 + \alpha)
          \prod_{k' \neq k}
              \Gamma(D_{k'} + \alpha)
      }{
          \Gamma(D+1 + K \alpha)
      }
\\
   &\qquad * 
      \frac{\Gamma(\alpha)^K}{\Gamma(K \alpha)}
      \frac{
          \Gamma(D + K \alpha)
      }{
          \prod_{k'=1}^K
              \Gamma(D_{k'} + \alpha)
      }
\\
   &= \frac{
          (D_k + \alpha)
          \Gamma(D_k + \alpha)
          \prod_{k' \neq k}
              \Gamma(D_{k'} + \alpha)
      }{
          (D + K \alpha)
          \Gamma(D + K \alpha)
      }
      \frac{
          \Gamma(D + K \alpha)
      }{
          \prod_{k'=1}^K
              \Gamma(D_{k'} + \alpha)
      }
\\
   &= \frac{
          D_k + \alpha
      }{
          D + K \alpha
      }
    \equiv
        \hat{\theta}_k
\end{aligned}

 1つの文書  d を除いた「トピックの事後周辺分布」のときと同様に、 D+1 番目の文書を追加した場合を考えて、 \hat{\theta}_k とおく。

 他のトピックについても同様に求められるので、 z^{*} の予測分布のパラメータは、次の  K 次元ベクトルになる。

 \displaystyle
\begin{aligned}
\hat{\boldsymbol{\theta}}
   &= (\hat{\theta}_1, \hat{\theta}_2, \cdots, \hat{\theta}_K)
\\
   &= \left(
          \frac{D_1 + \alpha}{D + K \alpha}, 
          \frac{D_2 + \alpha}{D + K \alpha}, 
          \cdots, 
          \frac{D_K + \alpha}{D + K \alpha}
      \right)
\end{aligned}

 分子(各トピックの文書数と定数の和)の総和が分母(文書数とトピック数倍の定数の和)に一致するので、カテゴリ分布のパラメータの条件を満たす。
 観測データ  \mathbf{z} から推定したトピック分布のパラメータ  \mathbf{\theta} の推定値と言える。

単語の事後予測分布の設定

 文書集合  \mathbf{W} とトピック集合  \mathbf{z}、未知の文書のトピック  z^{*} が与えられたときの未知の文書の単語(の語彙)  w^{*} の予測分布を求める。

 \displaystyle
\begin{aligned}
p(w^{*} = v \mid z^{*} = k, \mathbf{W}, \mathbf{z}, \beta)
   &= \int
          p(w^{*} = v, \boldsymbol{\phi}_k \mid z^{*} = k, \mathbf{W}, \mathbf{z}, \beta)
      \mathrm{d} \boldsymbol{\phi}_k
\\
   &= \int
          p(w^{*} = v \mid z^{*} = k, \boldsymbol{\phi}_k)
          p(\boldsymbol{\phi}_k \mid \mathbf{W}, \mathbf{z}, \beta)
      \mathrm{d} \boldsymbol{\phi}_k
\end{aligned}

途中式の途中式(クリックで展開)


  • 1: 観測(またはサンプリング)した変数  z^{*}, \mathbf{W}, \mathbf{z} と事前分布のパラメータ  \beta を条件とする未観測の観測変数  w^{*} とパラメータ  \boldsymbol{\phi}_k の結合分布を  \boldsymbol{\phi}_k に関して周辺化した式を立てる。
  • 2: 変数  w^{*} とパラメータ  \boldsymbol{\phi}_k の項を分割する。

  p(\boldsymbol{\phi}_k \mid \mathbf{W}, \mathbf{z}, \beta) は、 \mathbf{W}, \mathbf{z} が与えられたときのトピック  k の単語分布のパラメータ  \boldsymbol{\phi}_k の事後分布である。つまり、 p(w^{*} = v \mid z^{*} = k, \mathbf{W}, \mathbf{z}, \beta) は、 \boldsymbol{\phi}_k の事後分布を用いた単語  w^{*} の周辺分布である。

単語分布のパラメータ

  w^{*} の予測分布の式は、 \mathbf{W} の周辺分布の式(3.25)を用いて求められる。

 \displaystyle
\begin{aligned}
p(w^{*} = v \mid z^{*} = k, \mathbf{W}, \mathbf{z}, \beta)
   &= \frac{
          p(w^{*} = v, \mathbf{W} \mid z^{*} = k, \mathbf{z}, \beta)
      }{
          p(\mathbf{W} \mid \mathbf{z}, \beta)
      }
\\
   &= \frac{
          \Gamma(V \beta)^K
      }{
          \Gamma(\beta)^{KV}
      }
      \frac{
          \Gamma(N_{kv} + 1 + \beta)
          \prod_{v' \neq v}
              \Gamma(N_{kv'} + \beta)
      }{
          \Gamma(N_k + 1 + V \beta)
      }
      \prod_{k' \neq k}
          \frac{
              \prod_{v'=1}^V
                  \Gamma(N_{k'v'} + \beta)
          }{
              \Gamma(N_{k'} + V \beta)
          }
\\
   &\qquad * 
      \frac{\Gamma(\beta)^{KV}}{\Gamma(V \beta)^K}
      \frac{
          \Gamma(N_k + V \beta)
      }{
          \prod_{v'=1}^V
              \Gamma(N_{kv'} + \beta)
      }
      \prod_{k' \neq k}
          \frac{
              \Gamma(N_{k'} + V \beta)
          }{
              \prod_{v'=1}^V
                  \Gamma(N_{k'v'} + \beta)
          }
\\
   &= \frac{
          (N_{kv} + \beta)
          \Gamma(N_{kv} + \beta)
          \prod_{v' \neq v}
              \Gamma(N_{kv'} + \beta)
      }{
          (N_k + V \beta)
          \Gamma(N_k + V \beta)
      }
      \frac{
          \Gamma(N_k + V \beta)
      }{
          \prod_{v'=1}^V
              \Gamma(N_{kv'} + \beta)
      }
\\
   &= \frac{
          N_{kv} + \beta
      }{
          N_k + V \beta
      }
    \equiv
        \hat{\phi}_{kv}
\end{aligned}

 1つの文書  d を除いた「単語の事後周辺分布」のときと同様に、 D+1 番目の文書において1つの単語  w^{*} を追加した場合を考えて、 \hat{\phi}_{kv} とおく。

 他の語彙についても同様に求められるので、 w^{*} の予測分布のパラメータは、次の  V 次元ベクトルになる。

 \displaystyle
\begin{aligned}
\hat{\boldsymbol{\phi}}_k
   &= (\hat{\phi}_{k1}, \hat{\phi}_{k2}, \cdots, \hat{\phi}_{kV})
\\
   &= \left(
          \frac{N_{k1} + \beta}{N_k + V \beta}, 
          \frac{N_{k2} + \beta}{N_k + V \beta}, 
          \cdots, 
          \frac{N_{kV} + \beta}{N_k + V \beta}
      \right)
\end{aligned}

 分子(トピックごとの各語彙の単語数と定数の和)の総和が分母(トピックごとの単語数と語彙数倍の定数の和)に一致するので、カテゴリ分布のパラメータの条件を満たす。
 観測データ  \mathbf{W}, \mathbf{Z} から推定した単語分布のパラメータ  \mathbf{\phi}_k の推定値と言える。

 以上で、各単語と各文書のトピックの事後予測分布の式が得られた。

 この記事では、一様なハイパーパラメータの場合の混合ユニグラムモデルに対する崩壊型ギブスサンプリングによるパラメータの計算式を導出した。

参考書籍

  • 岩田具治(2015)『トピックモデル』(機械学習プロフェッショナルシリーズ)講談社

おわりに

 現在これら3章混合ユニグラムモデルの内容をRで組もうと色々試行錯誤しています。

2019/07/27:加筆修正しました。

 単純なベイズの定理や乗法定理以外の条件付き確率の操作がまだよく分かっていません。別の本を仕入れているので、早くそれで勉強したいとは思いつつも、、、

2020/07/24:加筆修正しました。

 白トピ本と須山ベイズ本により、それなりに理解できました!そちらの解説記事も書いてるので、よければ読んでね。

  • 2024.07.11:加筆修正しました。

 この記事では、大きく分けて4つ(修正前は3つでした)の節に分けてそれぞれで導出を行っているのですが、4周目にしてようやく何のために何をしているのかを理解できた気がします。これまでは手段と目的も分からず(分かっていないことも分かっていませんでした)書いていたので節ごとにぶつ切りだったのですが、今回は節ごとに1・2文の簡単なものですが間を繋ぐ説明を書けました。
 さらに今回は本で読み飛ばしていた(ハイパラの更新式を出せて満足し読んでいないことに気付いてもいなかった)トピック分布と単語分布のパラメータの推定値について追加しました。2.6節を参考にして導出したのですが、こういうことでいいんですよね??確信を持てずにいますが、本に載っている式にはなったので、とりあえずのところはこう理解しました。

【次節の内容】

  • スクラッチ実装編

 混合ユニグラムモデル(一様なハイパーパラメータ)に対する崩壊型ギブスサンプリングをプログラムで確認します。

www.anarchive-beta.com


  • 数式読解編

 混合ユニグラムモデル(多様なハイパーパラメータ)に対する崩壊型ギブスサンプリングを数式で確認します。

www.anarchive-beta.com