からっぽのしょこ

読んだら書く!書いたら読む!同じ事は二度調べ(たく)ない

5.5:トピック追跡モデル【『トピックモデル』の勉強ノート】

はじめに

 機械学習プロフェッショナルシリーズの『トピックモデル』の勉強時に自分の理解の助けになったことや勉強会資料のまとめです。トピックモデルの各種アルゴリズムを「数式」と「プログラム」から理解することを目指します。本とあわせて読んでください。

 この記事は、5.5節「トピック追跡モデル(Topic Tracking Model)」の内容です。トピック追跡モデルのパラメータを崩壊型ギブスサンプリングにより推定します。

【前節の内容】

www.anarchive-beta.com

【他の節一覧】

www.anarchive-beta.com

【この節の内容】


5.5 トピック追跡モデル

 トピック追跡モデルでは、時間情報に注目します。時間経過とともに変化する各文書のトピック分布と各トピックの単語分布を推定します。

 共通部分が多々あるので、「4.5:トピックモデルのギブスサンプリング【『トピックモデル』の勉強ノート】 - からっぽのしょこ」も参照してください。

・生成過程

 トピック追跡モデルでは、著者数を$D$として、一定時刻(1時間・日・月など)ごとにそれぞれの著者が文書を書く(生成する)とする。ある時刻$t$において著者$d$が生成した文書(単語集合)を$\mathbf{w}_d^{(t)}$と表記することにする。またこれはこれまでと同様に文書$d$とも呼ぶ。この文書$\mathbf{w}_d^{(t)}$の各単語$w_{dn}^{(t)}$は、その著者が持つトピック分布$\boldsymbol{\theta}_d^{(t)}$に従ってトピックが割り当てられ、またその割り当てられたトピックが持つ単語分布$\boldsymbol{\phi}_{z_{dn}^{(t)}}^{(t)}$に従って語彙が生成されたとする。
 各著者のトピック分布は、時刻に応じて変化するとする。時刻$t$におけるトピック分布$\boldsymbol{\theta}_d^{(t)}$は、1時刻前のトピック分布の推定値$\hat{\boldsymbol{\theta}}_d^{(t-1)}$から変化したものと考える。その変化の度合いをハイパーパラメータ$\boldsymbol{\alpha}_d^{(t)}$で表す。また著者ごとに変化の度合いが異なることを表現するために、ハイパーパラメータも著者ごとに異なる値$(\alpha_1^{(t)}, \cdots, \alpha_D^{(t)})$をとる。この$\alpha_d^{(t)}$と$\hat{\boldsymbol{\theta}}_d^{(t-1)}$の積を、$\boldsymbol{\theta}_d^{(t)}$のディリクレ事前分布のパラメータとする。
 単語分布についても同様に、時刻$t$におけるトピック$k$の単語分布$\boldsymbol{\phi}_k^{(t)}$は、1時刻前の単語分布の推定値$\hat{\boldsymbol{\phi}}_k^{(t-1)}$に応じて決まるとする。またトピックごとによって変化の度合いが異なることをハイパーパラメータ$\boldsymbol{\beta}^{(t)} = (\beta_1^{(t)}, \cdots, \beta_K^{(t)})$で表現する。そしてこの2つの積$\beta_{k}^{(t)} \hat{\boldsymbol{\phi}}_k^{(t-1)}$を、ディリクレ事前分布のパラメータとする。

 トピックモデルではパラメータを分布推定するのであった。つまり$\boldsymbol{\theta}_d^{(t-1)},\ \boldsymbol{\phi}_k^{(t-1)}$をそれぞれ事後分布として求めている。そこで1時刻前のパラメータとして期待値$\hat{\boldsymbol{\theta}}_d^{(t-1)} = \mathbb{E}[\boldsymbol{\theta}_d^{(t-1)}],\ \hat{\boldsymbol{\phi}}_k^{(t-1)} = \mathbb{E}[\boldsymbol{\phi}_k^{(t-1)}]$に変換して用いる(?)。詳しくは図5.14を参照のこと。

・記号一覧

 4章に加えて5.5節で用いる記号を次にまとめる。

5.5節で追加する記号一覧

 ハイパーパラメータは多様な値をとるが、(多様な値をとるとした場合の)これまでのようにトピックごと$\boldsymbol{\alpha} = (\alpha_1, \cdots, \alpha_K)$、語彙ごと$\boldsymbol{\beta} = (\beta_1, \cdots, \beta_V)$ではないことに注意。

・グラフィカルモデル

 トピック追跡モデルをグラフィカルモデルで表現すると、次の図になる。

・作図用のRコード(クリックで展開)

# 利用パッケージ
library(DiagrammeR)

# トピック追跡モデル
DiagrammeR::grViz("
  digraph TrackingTM{
    graph [rankdir = LR]
    node [shape = circle, fixedsize = ture, fontname = 'Times-Italic']
    
    alpha_0 [label = <<B>&alpha;</B>@^{(t-1)}>]
    subgraph cluster_D_0{
      label = D
      theta_0 [label = <<B>&theta;</B>@_{d}@^{(t-1)}>]
      subgraph cluster_N_0{
        label = 'N@_{d}'
        z_0 [label = 'z@_{dn}@^{(t-1)}']
        w_0 [label = 'w@_{dn}@^{(t-1)}', style = filled, filledcolor = 'gray']
      }
    }
    
    beta_0 [label = <<B>&beta;</B>@^{(t-1)}>]
    subgraph cluster_K_0{
      label = K
      phi_0 [label = <<B>&phi;</B>@_{k}@^{(t-1)}>]
    }
    
    alpha [label = <<B>&alpha;</B>@^{(t)}>]
    subgraph cluster_D{
      label = D
      theta [label = <<B>&theta;</B>@_{d}@^{(t)}>]
      subgraph cluster_N{
        label = 'N@_{d}'
        z [label = 'z@_{dn}@^{(t)}']
        w [label = 'w@_{dn}@^{(t)}', style = filled, filledcolor = 'gray']
      }
    }
    
    beta [label = <<B>&beta;</B>@^{(t)}>]
    subgraph cluster_K{
      label = K
      phi [label = <<B>&phi;</B>@_{k}@^{(t)}>]
    }
    
    edge []
      alpha -> theta -> z -> w;
      phi -> beta [dir = back];
      w -> phi [dir = back];
      
      alpha_0 -> theta_0 -> z_0 -> w_0;
      phi_0 -> beta_0 [dir = back];
      w_0 -> phi_0 [dir = back];
      
      theta_0 -> theta;
      phi_0 -> phi;
  }
")

(矢印を垂直に引きたいんですがねぇ、、)

トピック追跡モデルのグラフィカルモデル


・生成モデル

 生成過程に従うと、時刻$t$における文書集合$\mathbf{W}^{(t)}$の生成確率は

$$ \begin{aligned} p(\mathbf{W}^{(t)} | \boldsymbol{\Theta}^{(t)}, \boldsymbol{\Phi}^{(t)}) &= \prod_{d=1}^D p(\mathbf{w}_d^{(t)} | \boldsymbol{\theta}_d^{(t)}, \boldsymbol{\Phi}^{(t)}) \\ &= \prod_{d=1}^D \prod_{n=1}^{N_d^{(t)}} p(w_{dn}^{(t)} | \boldsymbol{\theta}_d^{(t)}, \boldsymbol{\Phi}^{(t)}) \\ &= \prod_{d=1}^D \prod_{n=1}^{N_d^{(t)}} \sum_{k=1}^K p(w_{dn}^{(t)}, z_{dn}^{(t)} = k | \boldsymbol{\theta}_d^{(t)}, \boldsymbol{\phi}_k^{(t)}) \\ &= \prod_{d=1}^D \prod_{n=1}^{N_d^{(t)}} \sum_{k=1}^K p(z_{dn}^{(t)} = k | \boldsymbol{\theta}_d^{(t)}) p(w_{dn}^{(t)} | z_{dn}^{(t)} = k, \boldsymbol{\phi}_k^{(t)}) \end{aligned} $$

【途中式の途中式】

  1. 文書(著者)ごとの積に分解する。
  2. 単語ごとの積に分解する。
  3. 周辺化された単語の潜在トピック$z_{dn}^{(t)}$を明示する。
  4. 生成過程に従い乗法定理より、項を分解する。


と分解できる。

・サンプリング確率

・パラメータの周辺化

 時刻$t$において、パラメータ$\boldsymbol{\Theta}^{(t)},\ \boldsymbol{\Phi}^{(t)}$を周辺化した、観測データ$\mathbf{W}^{(t)}$と潜在トピック集合$\mathbf{Z}^{(t)}$の周辺同時分布(周辺同時尤度)は、生成過程より

$$ \begin{align} p(\mathbf{W}^{(t)}, \mathbf{Z}^{(t)} | \boldsymbol{\alpha}^{(t)}, \boldsymbol{\beta}^{(t)}, \hat{\boldsymbol{\Theta}}^{(t-1)}, \hat{\boldsymbol{\Phi}}^{(t-1)}) &= \int \int p(\mathbf{W}^{(t)}, \mathbf{Z}^{(t)}, \boldsymbol{\Theta}^{(t)}, \boldsymbol{\Phi}^{(t)} | \boldsymbol{\alpha}^{(t)}, \boldsymbol{\beta}^{(t)}, \hat{\boldsymbol{\Theta}}^{(t-1)}, \hat{\boldsymbol{\Phi}}^{(t-1)}) d\boldsymbol{\Theta}^{(t)} d\boldsymbol{\Phi}^{(t)} \\ &= \int p(\mathbf{Z}^{(t)} | \boldsymbol{\Theta}^{(t)}) p(\boldsymbol{\Theta}^{(t)} | \boldsymbol{\alpha}^{(t)}, \hat{\boldsymbol{\Theta}}^{(t-1)}) d\boldsymbol{\Theta}^{(t)} \int p(\mathbf{W}^{(t)} | \mathbf{Z}^{(t)}, \boldsymbol{\Phi}^{(t)}) p(\boldsymbol{\Phi}^{(t)} | \boldsymbol{\beta}^{(t)}, \hat{\boldsymbol{\Phi}}^{(t-1)}) d\boldsymbol{\Phi}^{(t)} \\ &= p(\mathbf{Z}^{(t)} | \boldsymbol{\alpha}^{(t)}, \hat{\boldsymbol{\Theta}}^{(t-1)}) p(\mathbf{W}^{(t)} | \mathbf{Z}^{(t)}, \boldsymbol{\beta}^{(t)}, \hat{\boldsymbol{\Phi}}^{(t-1)}) \tag{5.5.1} \end{align} $$

と分解できる。

 分解した各分布の具体的な式を求めていく。前の項$p(\mathbf{Z}^{(t)} | \boldsymbol{\alpha}^{(t)}, \hat{\boldsymbol{\Theta}}^{(t-1)})$は、式(4.10)と同様にして

$$ \begin{align} p(\mathbf{Z}^{(t)} | \boldsymbol{\alpha}^{(t)}, \hat{\boldsymbol{\Theta}}^{(t-1)}) &= \int p(\mathbf{Z}^{(t)} | \boldsymbol{\Theta}^{(t)}) p(\boldsymbol{\Theta}^{(t)} | \boldsymbol{\alpha}^{(t)}, \hat{\boldsymbol{\Theta}}^{(t-1)}) d\boldsymbol{\Theta}^{(t)} \\ &= \prod_{d=1}^D \int \left[ \prod_{n=1}^{N_d} p(z_{dn}^{(t)} = k | \boldsymbol{\theta}_d^{(t)}) \right] p(\boldsymbol{\theta}_d^{(t)} | \alpha_d^{(t)}, \hat{\boldsymbol{\theta}}_d^{(t-1)}) d\boldsymbol{\theta}_d^{(t)} \\ &= \prod_{d=1}^D \int \left[ \prod_{k=1}^K \theta_{dk}^{(t) N_{dk}^{(t)}} \right] \frac{ \Gamma(\sum_{k=1}^K \alpha_d^{(t)} \hat{\theta}_{dk}^{(t-1)}) }{ \prod_{k=1}^K \Gamma(\alpha_d^{(t)} \hat{\theta}_{dk}^{(t-1)}) } \prod_{k=1}^K \theta_{dk}^{(t) \alpha_d^{(t)}\hat{\theta}_{dk}^{(t-1)}-1} d\boldsymbol{\theta}_d^{(t)} \\ &= \prod_{d=1}^D \frac{ \Gamma(\alpha_d^{(t)} \sum_{k=1}^K \hat{\theta}_{dk}^{(t-1)}) }{ \prod_{k=1}^K \Gamma(\alpha_d^{(t)} \hat{\theta}_{dk}^{(t-1)}) } \int \prod_{k=1}^K \theta_{dk}^{(t) N_{dk}^{(t)}+\alpha_d^{(t)}\hat{\theta}_{dk}^{(t-1)}-1} d\boldsymbol{\theta}_d^{(t)} \\ &= \prod_{d=1}^D \left[ \frac{ \Gamma(\alpha_d^{(t)}) }{ \prod_{k=1}^K \Gamma(\alpha_d^{(t)} \hat{\theta}_{dk}^{(t-1)}) } \frac{ \prod_{k=1}^K \Gamma(N_{dk}^{(t)} + \alpha_d^{(t)} \hat{\theta}_{dk}^{(t-1)}) }{ \Gamma( \sum_{k=1}^K [ N_{dk}^{(t)} + \alpha_d^{(t)} \hat{\theta}_{dk}^{(t-1)} ] ) } \right] \\ &= \prod_{d=1}^D \left[ \frac{ \Gamma(\alpha_d^{(t)}) }{ \prod_{k=1}^K \Gamma(\alpha_d^{(t)} \hat{\theta}_{dk}^{(t-1)}) } \frac{ \prod_{k=1}^K \Gamma(N_{dk}^{(t)} + \alpha_d^{(t)} \hat{\theta}_{dk}^{(t-1)}) }{ \Gamma(N_d^{(t)} + \alpha_d^{(t)}) } \right] \tag{5.5.2}\\ &= \prod_{d=1}^D \frac{ \Gamma(\alpha_d^{(t)}) }{ \Gamma(N_d^{(t)} + \alpha_d^{(t)}) } \prod_{d=1}^D \prod_{k=1}^K \frac{ \Gamma(N_{dk}^{(t)} + \alpha_d^{(t)} \hat{\theta}_{dk}^{(t-1)}) }{ \Gamma(\alpha_d^{(t)} \hat{\theta}_{dk}^{(t-1)}) } \tag{5.5.2'} \end{align} $$

となる。$p(\boldsymbol{\theta}_d^{(t)} | \alpha_d^{(t)}, \hat{\boldsymbol{\theta}}_d^{(t-1)}) = \mathrm{Dirichlet}(\boldsymbol{\theta}_d^{(t)} | \alpha_d^{(t)} \hat{\boldsymbol{\theta}}_d^{(t-1)})$であり、また$\sum_{k=1}^K \hat{\theta}_{dk}^{(t-1)} = 1$である。

 後の項$p(\mathbf{W}^{(t)} | \mathbf{Z}^{(t)}, \boldsymbol{\beta}^{(t)}, \hat{\boldsymbol{\Phi}}^{(t-1)})$は、式(4.11)と同様にして

$$ \begin{align} p(\mathbf{W}^{(t)} | \mathbf{Z}^{(t)}, \boldsymbol{\beta}^{(t)}, \hat{\boldsymbol{\Phi}}^{(t-1)}) &= \int p(\mathbf{W}^{(t)} | \mathbf{Z}^{(t)}, \boldsymbol{\Phi}^{(t)}) p(\boldsymbol{\Phi}^{(t)} | \boldsymbol{\beta}^{(t)}, \hat{\boldsymbol{\Phi}}^{(t-1)}) d\boldsymbol{\Phi}^{(t)} \\ &= \int \left[ \prod_{d=1}^D \prod_{n=1}^{N_d} p(w_{dn}^{(t)} | z_{dn}^{(t)} = k, \boldsymbol{\phi}_k^{(t)}) \right] \left[ \prod_{k=1}^K p(\boldsymbol{\phi}_k^{(t)} | \beta_k^{(t)}, \hat{\boldsymbol{\phi}}_k^{(t-1)}) \right] d\boldsymbol{\Phi}^{(t)} \\ &= \prod_{k=1}^K \int \left[ \prod_{v=1}^V \phi_{kv}^{(t) N_{kv}^{(t)}} \right] \frac{ \Gamma(\sum_{v=1}^V \beta_k^{(t)} \hat{\phi}_{kv}^{(t-1)}) }{ \prod_{v=1}^V \Gamma(\beta_k^{(t)}\hat{\phi}_{kv}^{(t-1)}) } \prod_{v=1}^V \phi_{kv}^{(t) \beta_k^{(t)}\hat{\phi}_{kv}^{(t-1)}-1} d\boldsymbol{\phi}_k^{(t)} \\ &= \prod_{k=1}^K \frac{ \Gamma(\beta_k^{(t)} \sum_{v=1}^V \hat{\phi}_{kv}^{(t-1)}) }{ \prod_{v=1}^V \Gamma(\beta_k^{(t)}\hat{\phi}_{kv}^{(t-1)}) } \int \prod_{v=1}^V \phi_{kv}^{(t) N_{kv}^{(t)}+\beta_k^{(t)}\hat{\phi}_{kv}^{(t-1)}-1} d\boldsymbol{\phi}_k^{(t)} \\ &= \prod_{k=1}^K \left[ \frac{ \Gamma(\beta_k^{(t)}) }{ \prod_{v=1}^V \Gamma(\beta_k^{(t)}\hat{\phi}_{kv}^{(t-1)}) } \frac{ \prod_{v=1}^V \Gamma(N_{kv}^{(t)} + \beta_k^{(t)} \hat{\phi}_{kv}^{(t-1)}) }{ \Gamma( \sum_{v=1}^V [ N_{kv}^{(t)} + \beta_k^{(t)} \hat{\phi}_{kv}^{(t-1)} ] ) } \right] \\ &= \prod_{k=1}^K \left[ \frac{ \Gamma(\beta_k^{(t)}) }{ \prod_{v=1}^V \Gamma(\beta_k^{(t)}\hat{\phi}_{kv}^{(t-1)}) } \frac{ \prod_{v=1}^V \Gamma(N_{kv}^{(t)} + \beta_k^{(t)} \hat{\phi}_{kv}^{(t-1)}) }{ \Gamma(N_k^{(t)} + \beta_k^{(t)}) } \right] \tag{5.5.3}\\ &= \prod_{k=1}^K \frac{ \Gamma(\beta_k^{(t)}) }{ \Gamma(N_k^{(t)} + \beta_k^{(t)}) } \prod_{k=1}^K \prod_{v=1}^V \frac{ \Gamma(N_{kv}^{(t)} + \beta_k^{(t)} \hat{\phi}_{kv}^{(t-1)}) }{ \Gamma(\beta_k^{(t)} \hat{\phi}_{kv}^{(t-1)}) } \tag{5.5.3'} \end{align} $$

となる。$p(\boldsymbol{\phi}_k^{(t)} | \beta_k^{(t)}, \hat{\boldsymbol{\phi}}_k^{(t-1)}) = \mathrm{Dirichlet}(\boldsymbol{\phi}_k^{(t)} | \beta_k^{(t)} \hat{\boldsymbol{\phi}}_k^{(t-1)})$であり、また$\sum_{v=1}^V \hat{\phi}_{kv}^{(t-1)} = 1$である。

 この周辺同時分布(5.5.1)を用いて、各単語のトピックのサンプリング確率を求める。

・単語のトピックのサンプリング式の導出

 時刻$t$においてある単語のトピック$z_{dn}^{(t)}$が$k$となる確率は、4.5節と同様に周辺同時分布にベイズの定理を用いて

$$ \begin{aligned} p(z_{dn}^{(t)} = k | \mathbf{Z}_{\backslash tdn}^{(t)}, \mathbf{W}^{(t)}, \boldsymbol{\alpha}^{(t)}, \boldsymbol{\beta}^{(t)}, \hat{\boldsymbol{\Theta}}^{(t-1)}, \hat{\boldsymbol{\Phi}}^{(t-1)}) &= \frac{ p(z_{dn}^{(t)} = k, \mathbf{Z}_{\backslash tdn}^{(t)}, \mathbf{W}^{(t)} | \boldsymbol{\alpha}^{(t)}, \boldsymbol{\beta}^{(t)}, \hat{\boldsymbol{\Theta}}^{(t-1)}, \hat{\boldsymbol{\Phi}}^{(t-1)}) }{ p(\mathbf{Z}_{\backslash tdn}^{(t)}, \mathbf{W}^{(t)} | \boldsymbol{\alpha}^{(t)}, \boldsymbol{\beta}^{(t)}, \hat{\boldsymbol{\Theta}}^{(t-1)}, \hat{\boldsymbol{\Phi}}^{(t-1)}) } \\ &\propto p(z_{dn}^{(t)} = k, \mathbf{Z}_{\backslash tdn}^{(t)}, \mathbf{W}^{(t)} | \boldsymbol{\alpha}^{(t)}, \boldsymbol{\beta}^{(t)}, \hat{\boldsymbol{\Theta}}^{(t-1)}, \hat{\boldsymbol{\Phi}}^{(t-1)}) \\ &= p(w_{dn}^{(t)} | z_{dn}^{(t)} = k, \mathbf{Z}_{\backslash tdn}^{(t)}, \mathbf{W}_{\backslash tdn}^{(t)}, \boldsymbol{\beta}^{(t)}, \hat{\boldsymbol{\Phi}}^{(t-1)}) p(\mathbf{W}_{\backslash tdn}^{(t)} | \mathbf{Z}_{\backslash tdn}^{(t)}, \boldsymbol{\beta}^{(t)}, \hat{\boldsymbol{\Phi}}^{(t-1)}) \\ &\qquad * p(z_{dn}^{(t)} = k | \mathbf{Z}_{\backslash tdn}^{(t)}, \alpha_d^{(t)}, \hat{\boldsymbol{\theta}}^{(t-1)}) p(\mathbf{Z}_{\backslash tdn}^{(t)} | \boldsymbol{\alpha}^{(t)}, \hat{\boldsymbol{\Theta}}_d^{(t-1)}) \\ &\propto p(w_{dn}^{(t)} | z_{dn}^{(t)} = k, \mathbf{Z}_{\backslash tdn}^{(t)}, \mathbf{W}_{\backslash tdn}^{(t)}, \beta_k^{(t)}, \hat{\boldsymbol{\phi}}_k^{(t-1)}) p(z_{dn}^{(t)} = k | \mathbf{Z}_{\backslash tdn}^{(t)}, \alpha_d^{(t)}, \hat{\boldsymbol{\theta}}_d^{(t-1)}) \end{aligned} $$

で求められる。適宜$z_{dn}^{(t)}$に影響しない項を省略している。

 前の項は、式(5.5.3)を用いて式(4.14)と同様にして

$$ \begin{aligned} p(w_{dn}^{(t)} | z_{dn}^{(t)} = k, \mathbf{Z}_{\backslash tdn}^{(t)}, \mathbf{W}_{\backslash tdn}^{(t)}, \beta_k^{(t)}, \hat{\boldsymbol{\phi}}_k^{(t-1)}) &= \frac{ p(w_{dn}^{(t)}, \mathbf{W}_{\backslash tdn}^{(t)} | z_{dn}^{(t)} = k, \mathbf{Z}_{\backslash tdn}^{(t)}, \boldsymbol{\beta}^{(t)}, \hat{\boldsymbol{\Phi}}^{(t-1)}) }{ p(\mathbf{W}_{\backslash tdn}^{(t)} | \mathbf{Z}_{\backslash tdn}^{(t)}, \boldsymbol{\beta}^{(t)}, \hat{\boldsymbol{\Phi}}^{(t-1)}) } \\ &= \frac{ \Gamma(\beta_k^{(t)}) }{ \prod_{v=1}^V \Gamma(\beta_k^{(t)} \hat{\phi}_{kv}^{(t-1)}) } \frac{ \Gamma(N_{kw_{dn}^{(t)} \backslash tdn}^{(t)} + 1 + \beta_k^{(t)} \hat{\phi}_{kw_{dn}^{(t)}}^{(t-1)}) \prod_{v' \neq w_{dn}^{(t)}} \Gamma(N_{kv' \backslash tdn}^{(t)} + \beta_k^{(t)} \hat{\phi}_{kv'}^{(t-1)}) }{ \Gamma(N_{k \backslash tdn}^{(t)} + 1 + \beta_k^{(t)}) } \\ &\qquad * \frac{ \prod_{v=1}^V \Gamma(\beta_k^{(t)} \hat{\phi}_{kv}^{(t-1)}) }{ \Gamma(\beta_k^{(t)}) } \frac{ \Gamma(N_{v \backslash tdn}^{(t)} + \beta_k^{(t)}) }{ \prod_{v=1}^V \Gamma(N_{kv \backslash tdn}^{(t)} + \beta_k^{(t)} \hat{\phi}_{kv}^{(t-1)}) } \\ &= \frac{ (N_{kw_{dn}^{(t)} \backslash tdn}^{(t)} + \beta_k^{(t)} \hat{\phi}_{kw_{dn}^{(t)}}^{(t-1)}) \Gamma(N_{kw_{dn}^{(t)} \backslash tdn}^{(t)} + \beta_k^{(t)} \hat{\phi}_{kw_{dn}^{(t)}}^{(t-1)}) \prod_{v' \neq w_{dn}^{(t)}} \Gamma(N_{kv' \backslash tdn}^{(t)} + \beta_k^{(t)} \hat{\phi}_{kv'}^{(t-1)}) }{ (N_{k \backslash tdn}^{(t)} + \beta_k^{(t)}) \Gamma(N_{k \backslash tdn}^{(t)} + \beta_k^{(t)}) } \\ &\qquad * \frac{ \Gamma(N_{v \backslash tdn}^{(t)} + \beta_k^{(t)}) }{ \prod_{v=1}^V \Gamma(N_{kv \backslash tdn}^{(t)} + \beta_k^{(t)} \hat{\phi}_{kv}^{(t-1)}) } \\ &= \frac{ N_{kw_{dn}^{(t)} \backslash tdn}^{(t)} + \beta_k^{(t)} \hat{\phi}_{kw_{dn}^{(t)}}^{(t-1)} }{ N_{k \backslash tdn}^{(t)} + \beta_k^{(t)} } \end{aligned} $$

となる。1行目の分母分子において、分母に含まれない$w_{dn}^{(t)} = v$に関する項を取り出して考えている。また$w_{dn}$に割り当てられたトピック$k$以外のトピックに関する項は、計算過程において約分によって消えている。

 後の項は、式(5.5.2)を用いて式(4.13)と同様にして

$$ \begin{aligned} p(z_{dn}^{(t)} = k | \mathbf{Z}_{\backslash tdn}^{(t)}, \alpha_d^{(t)}, \hat{\boldsymbol{\theta}}^{(t-1)}) &= \frac{ p(z_{dn}^{(t)} = k, \mathbf{Z}_{\backslash tdn}^{(t)} | \boldsymbol{\alpha}^{(t)}, \hat{\boldsymbol{\Theta}}^{(t-1)}) }{ p(\mathbf{Z}_{\backslash tdn}^{(t)} | \boldsymbol{\alpha}^{(t)}, \hat{\boldsymbol{\Theta}}^{(t-1)}) } \\ &= \frac{ \Gamma(\alpha_d^{(t)}) }{ \prod_{k=1}^K \Gamma(\alpha_d^{(t)} \hat{\theta}_{dk}^{(t-1)}) } \frac{ \Gamma(N_{dk \backslash tdn}^{(t)} + 1 + \alpha_d^{(t)} \hat{\theta}_{dk}^{(t-1)}) \prod_{k' \neq k} \Gamma(N_{dk' \backslash tdn}^{(t)} + \alpha_d^{(t)} \hat{\theta}_{dk'}^{(t-1)}) }{ \Gamma(N_{d \backslash tdn}^{(t)} + 1 + \alpha_d^{(t)}) } \\ &\qquad * \frac{ \prod_{k=1}^K \Gamma(\alpha_d^{(t)} \hat{\theta}_{dk}^{(t-1)}) }{ \Gamma(\alpha_d^{(t)}) } \frac{ \Gamma(N_d^{(t)} + \alpha_d^{(t)}) }{ \prod_{k=1}^K \Gamma(N_{dk \backslash tdn}^{(t)} + \alpha_d^{(t)} \hat{\theta}_{dk}^{(t-1)}) } \\ &= \frac{ (N_{dk \backslash tdn}^{(t)} + \alpha_d^{(t)} \hat{\theta}_{dk}^{(t-1)}) \Gamma(N_{dk \backslash tdn}^{(t)} + \alpha_d^{(t)} \hat{\theta}_{dk}^{(t-1)}) \prod_{k' \neq k} \Gamma(N_{dk' \backslash tdn}^{(t)} + \alpha_d^{(t)} \hat{\theta}_{dk'}^{(t-1)}) }{ (N_{d \backslash tdn}^{(t)} + \alpha_d^{(t)}) \Gamma(N_{d \backslash tdn}^{(t)} + \alpha_d^{(t)}) } \\ &\qquad * \frac{ \Gamma(N_d^{(t)} + \alpha_d^{(t)}) }{ \prod_{k=1}^K \Gamma(N_{dk \backslash tdn}^{(t)} + \alpha_d^{(t)} \hat{\theta}_{dk}^{(t-1)}) } \\ &= \frac{ N_{dk \backslash tdn}^{(t)} + \alpha_d^{(t)} \hat{\theta}_{dk}^{(t-1)} }{ N_{d \backslash tdn}^{(t)} + \alpha_d^{(t)} } \end{aligned} $$

となる。1行目の分母分子において、分母に含まれない$z_{dn} = k$に関する項を取り出して考えている。また文書$d$以外の文書に関する項は、計算過程において約分によって消えている。

 それぞれ代入すると

$$ \begin{aligned} p(z_{dn}^{(t)} = k | \mathbf{Z}_{\backslash tdn}^{(t)}, \mathbf{W}^{(t)}, \boldsymbol{\alpha}^{(t)}, \boldsymbol{\beta}^{(t)}, \hat{\boldsymbol{\Theta}}^{(t-1)}, \hat{\boldsymbol{\Phi}}^{(t-1)}) &= \frac{ N_{dk \backslash tdn}^{(t)} + \alpha_d^{(t)} \hat{\theta}_{dk}^{(t-1)} }{ N_{d \backslash tdn}^{(t)} + \alpha_d^{(t)} } \frac{ N_{kw_{dn}^{(t)} \backslash tdn}^{(t)} + \beta_k^{(t)} \hat{\phi}_{kw_{dn}^{(t)}}^{(t-1)} }{ N_{k \backslash tdn}^{(t)} + \beta_k^{(t)} } \\ &= (N_{dk \backslash tdn}^{(t)} + \alpha_d^{(t)} \hat{\theta}_{dk}^{(t-1)}) \frac{ N_{kw_{dn}^{(t)} \backslash tdn}^{(t)} + \beta_k^{(t)} \hat{\phi}_{kw_{dn}^{(t)}}^{(t-1)} }{ N_{k \backslash tdn}^{(t)} + \beta_k^{(t)} } \end{aligned} $$

が得られる。

・ハイパーパラメータ推定

 周辺同時分布(5.5.1)に対して不動点反復法を用いて、ハイパーパラメータ$\boldsymbol{\alpha}^{(t)},\ \boldsymbol{\beta}^{(t)}$の更新式を求める。

・トピック分布のパラメータの更新式の導出

 トピック分布のパラメータ$\boldsymbol{\alpha}^{(t)}$について考える。まずは不動点反復法を行うために、4.5節の「Tips」の関係を用いて各分布の下限を求める。

$$ \begin{align} p(\mathbf{Z}^{(t)} | \boldsymbol{\alpha}^{(t)}, \hat{\boldsymbol{\Theta}}^{(t-1)}) &= \prod_{d=1}^D \frac{ \Gamma(\alpha_d^{(t)}) }{ \Gamma(N_d^{(t)} + \alpha_d^{(t)}) } \prod_{d=1}^D \prod_{k=1}^K \frac{ \Gamma(N_{dk}^{(t)} + \alpha_d^{(t)} \hat{\theta}_{dk}^{(t-1)}) }{ \Gamma(\alpha_d^{(t)} \hat{\theta}_{dk}^{(t-1)}) } \tag{5.5.2'}\\ &\geq \prod_{d=1}^D \frac{ \Gamma(\hat{\alpha}_d^{(t)}) \exp \Bigl\{ (\hat{\alpha}_d^{(t)} - \alpha_d^{(t)}) b_{\alpha} \Bigr\} }{ \Gamma(N_d^{(t)} + \hat{\alpha}_d^{(t)}) } \prod_{d=1}^D \prod_{k=1}^K \frac{ \Gamma(N_{dk}^{(t)} + \hat{\alpha}_d^{(t)} \hat{\theta}_{dk}^{(t-1)}) }{ \Gamma(\hat{\alpha}_d^{(t)} \hat{\theta}_{dk}^{(t-1)}) } (\hat{\alpha}_d^{(t)} \hat{\theta}_{dk}^{(t-1)})^{-a_{\alpha}} (\alpha_d^{(t)} \hat{\theta}_{dk}^{(t-1)})^{a_{\alpha}} \end{align} $$

 ここで$\Psi(\cdot)$をディガンマ関数として

$$ \begin{aligned} a_{\alpha} &= \Bigl( \Psi(N_{dk}^{(t)} + \hat{\alpha}_d^{(t)} \hat{\theta}_{dk}^{(t-1)}) - \Psi(\hat{\alpha}_d^{(t)} \hat{\theta}_{dk}^{(t-1)}) \Bigr) \hat{\alpha}_d^{(t)} \hat{\theta}_{dk}^{(t-1)} \\ b_{\alpha} &= \Psi(N_d^{(t)} + \hat{\alpha}_d^{(t)}) - \Psi(\hat{\alpha}_d^{(t)}) \end{aligned} $$

である。

 周辺同時分布(5.5.1)においてトピック分布のパラメータ$\boldsymbol{\alpha}^{(t)}$に関わる項は$p(\mathbf{Z}^{(t)} | \boldsymbol{\alpha}^{(t)}, \hat{\boldsymbol{\Theta}}^{(t-1)})$のみである。他の項は次の微分時に消えるため、この式の対数をとったのもの$F(\boldsymbol{\alpha}^{(t)})$とおく。

$$ \begin{aligned} F(\boldsymbol{\alpha}^{(t)}) &= \sum_{d=1}^D \Bigl[ \log \Gamma(\hat{\alpha}_d^{(t)}) + (\hat{\alpha}_d^{(t)} - \alpha_d^{(t)}) b_{\alpha} - \log \Gamma(N_d^{(t)} + \hat{\alpha}_d^{(t)}) \Bigr] \\ &\qquad + \sum_{d=1}^D \sum_{k=1}^K \Bigl[ \ln \Gamma(N_{dk}^{(t)} + \hat{\alpha}_d^{(t)} \hat{\theta}_{dk}^{(t-1)}) - \ln \Gamma(\hat{\alpha}_d^{(t)} \hat{\theta}_{dk}^{(t-1)}) - a_{\alpha} \ln \hat{\alpha}_d^{(t)} \hat{\theta}_{dk}^{(t-1)} + a_{\alpha} \ln \alpha_d^{(t)} \hat{\theta}_{dk}^{(t-1)} \Bigr] \\ &= \sum_{d=1}^D \Bigl[ \log \Gamma(\hat{\alpha}_d^{(t)}) + (\hat{\alpha}_d^{(t)} - \alpha_d^{(t)}) \Bigl( \Psi(N_d^{(t)} + \hat{\alpha}_d^{(t)}) - \Psi(\hat{\alpha}_d^{(t)}) \Bigr) - \log \Gamma(N_d^{(t)} + \hat{\alpha}_d^{(t)}) \Bigr] \\ &\qquad + \sum_{d=1}^D \sum_{k=1}^K \Bigl[ \ln \Gamma(N_{dk}^{(t)} + \hat{\alpha}_d^{(t)} \hat{\theta}_{dk}^{(t-1)}) - \ln \Gamma(\hat{\alpha}_d^{(t)} \hat{\theta}_{dk}^{(t-1)}) \Bigr.\\ &\qquad \Bigl. - \Bigl( \Psi(N_{dk}^{(t)} + \hat{\alpha}_d^{(t)} \hat{\theta}_{dk}^{(t-1)}) - \Psi(\hat{\alpha}_d^{(t)} \hat{\theta}_{dk}^{(t-1)}) \Bigr) \hat{\alpha}_d^{(t)} \hat{\theta}_{dk}^{(t-1)} ( \ln \hat{\alpha}_d^{(t)} + \ln \hat{\theta}_{dk}^{(t-1)} ) \Bigr.\\ &\qquad \Bigl. + \Bigl( \Psi(N_{dk}^{(t)} + \hat{\alpha}_d^{(t)} \hat{\theta}_{dk}^{(t-1)}) - \Psi(\hat{\alpha}_d^{(t)} \hat{\theta}_{dk}^{(t-1)}) \Bigr) \hat{\alpha}_d^{(t)} \hat{\theta}_{dk}^{(t-1)} ( \ln \alpha_d^{(t)} + \ln \hat{\theta}_{dk}^{(t-1)} ) \Bigr] \end{aligned} $$

 この式を$\alpha_d^{(t)}$に関して微分して

$$ \frac{\partial F(\boldsymbol{\alpha}^{(t)})}{\partial \alpha_d^{(t)}} = - \Bigl( \Psi(N_d^{(t)} + \hat{\alpha}_d^{(t)}) - \Psi(\hat{\alpha}_d^{(t)}) \Bigr) + \sum_{k=1}^K \left[ \Bigl( \Psi(N_{dk}^{(t)} + \hat{\alpha}_d^{(t)} \hat{\theta}_{dk}^{(t-1)}) - \Psi(\hat{\alpha}_d^{(t)} \hat{\theta}_{dk}^{(t-1)}) \Bigr) \hat{\alpha}_d^{(t)} \hat{\theta}_{dk}^{(t-1)} \frac{1}{\alpha_d^{(t)}} \right] $$

$\frac{\partial F(\boldsymbol{\alpha}^{(t)})}{\partial \alpha_d^{(t)}} = 0$となる$\alpha_d^{(t)}$を求める。

$$ \begin{aligned} - \Bigl( \Psi(N_d^{(t)} + \hat{\alpha}_d^{(t)}) - \Psi(\hat{\alpha}_d^{(t)}) \Bigr) &+ \sum_{k=1}^K \left[ \Bigl( \Psi(N_{dk}^{(t)} + \hat{\alpha}_d^{(t)} \hat{\theta}_{dk}^{(t-1)}) - \Psi(\hat{\alpha}_d^{(t)} \hat{\theta}_{dk}^{(t-1)}) \Bigr) \hat{\alpha}_d^{(t)} \hat{\theta}_{dk}^{(t-1)} \frac{1}{\alpha_d^{(t)}} \right] = 0 \\ \alpha_d^{(t)} &= \hat{\alpha}_d^{(t)} \frac{ \sum_{k=1}^K \hat{\theta}_{dk}^{(t-1)} \Bigl( \Psi(N_{dk}^{(t)} + \hat{\alpha}_d^{(t)} \hat{\theta}_{dk}^{(t-1)}) - \Psi(\hat{\alpha}_d^{(t)} \hat{\theta}_{dk}^{(t-1)}) \Bigr) }{ \Psi(N_d^{(t)} + \hat{\alpha}_d^{(t)}) - \Psi(\hat{\alpha}_d^{(t)}) } \end{aligned} $$

 この式の右辺の$\hat{\alpha}_d^{(t)}$を現ステップのパラメータ$\alpha_d^{(t)}$、左辺の$\alpha_d^{(t)}$を次ステップ(更新後)のパラメータ$\alpha_d^{(t) \mathrm{new}}$とすると、$\alpha_d^{(t)}$の更新式

$$ \alpha_d^{(t) \mathrm{new}} = \alpha_d^{(t)} \frac{ \sum_{k=1}^K \hat{\theta}_{dk}^{(t-1)} \Bigl( \Psi(N_{dk}^{(t)} + \alpha_d^{(t)} \hat{\theta}_{dk}^{(t-1)}) - \Psi(\alpha_d^{(t)} \hat{\theta}_{dk}^{(t-1)}) \Bigr) }{ \Psi(N_d^{(t)} + \alpha_d^{(t)}) - \Psi(\alpha_d^{(t)}) } $$

が得られる。$\alpha_d^{(t) \mathrm{new}}$は、時刻$t$におけるトピック分布のパラメータの推定値を更新したものであり、時刻$t+1$におけるパラメータ$\alpha_d^{(t+1)}$ではないことに注意。

・単語分布のパラメータの更新式の導出

 単語分布のパラメータ$\boldsymbol{\beta}^{(t)}$についても同様に、各分布の下限を求める。

$$ \begin{align} p(\mathbf{W}^{(t)} | \mathbf{Z}^{(t)}, \boldsymbol{\beta}^{(t)}, \hat{\boldsymbol{\Phi}}^{(t-1)}) &= \prod_{k=1}^K \frac{ \Gamma(\beta_k^{(t)}) }{ \Gamma(N_k^{(t)} + \beta_k^{(t)}) } \prod_{k=1}^K \prod_{v=1}^V \frac{ \Gamma(N_{kv}^{(t)} + \beta_k^{(t)} \hat{\phi}_{kv}^{(t-1)}) }{ \Gamma(\beta_k^{(t)} \hat{\phi}_{kv}^{(t-1)}) } \tag{5.5.3'}\\ &\geq \prod_{k=1}^K \frac{ \Gamma(\hat{\beta}_k^{(t)}) \exp \Bigl\{ (\hat{\beta}_k^{(t)} - \beta_k^{(t)}) b_{\beta} \Bigr\} }{ \Gamma(N_k^{(t)} + \hat{\beta}_k^{(t)}) } \prod_{k=1}^K \prod_{v=1}^V \frac{ \Gamma(N_{kv}^{(t)} + \hat{\beta}_k^{(t)} \hat{\phi}_{kv}^{(t-1)}) }{ \Gamma(\hat{\beta}_k^{(t)} \hat{\phi}_{kv}^{(t-1)}) } (\hat{\beta}_k^{(t)} \hat{\phi}_{kv}^{(t-1)})^{-a_{\beta}} (\beta_k^{(t)} \hat{\phi}_{kv}^{(t-1)})^{a_{\beta}} \end{align} $$

 ここで

$$ \begin{aligned} a_{\beta} &= \Bigl( \Psi(N_{kv}^{(t)} + \hat{\beta}_k^{(t)} \hat{\phi}_{kv}^{(t-1)}) - \Psi(\hat{\beta}_k^{(t)} \hat{\phi}_{kv}^{(t-1)}) \Bigr) \hat{\beta}_k^{(t)} \hat{\phi}_{kv}^{(t-1)} \\ b_{\beta} &= \Psi(N_k^{(t)} + \hat{\beta}_k^{(t)}) - \Psi(\hat{\beta}_k^{(t)}) \end{aligned} $$

である。

 周辺同時分布(5.5.1)において単語分布のパラメータ$\boldsymbol{\beta}^{(t)}$に関わる項は$p(\mathbf{W}^{(t)} | \mathbf{Z}^{(t)}, \boldsymbol{\beta}^{(t)}, \hat{\boldsymbol{\Phi}}^{(t-1)})$のみなので、この式の対数をとったのもの$F(\boldsymbol{\beta}^{(t)})$とおく。

$$ \begin{aligned} F(\boldsymbol{\beta}^{(t)}) &= \sum_{k=1}^K \Bigl[ \ln \Gamma(\hat{\beta}_k^{(t)}) + (\hat{\beta}_k^{(t)} - \beta_k^{(t)}) b_{\beta} - \ln \Gamma(N_k^{(t)} + \hat{\beta}_k^{(t)}) \Bigr] \\ &\qquad + \sum_{k=1}^K \sum_{v=1}^V \Bigl[ \ln \Gamma(N_{kv}^{(t)} + \hat{\beta}_k^{(t)} \hat{\phi}_{kv}^{(t-1)}) - \ln\Gamma(\hat{\beta}_k^{(t)} \hat{\phi}_{kv}^{(t-1)}) - a_{\beta} \ln \hat{\beta}_k^{(t)} \hat{\phi}_{kv}^{(t-1)} + a_{\beta} \ln \beta_k^{(t)} \hat{\phi}_{kv}^{(t-1)} \Bigr] \\ &= \sum_{k=1}^K \Bigl[ \ln \Gamma(\hat{\beta}_k^{(t)}) + (\hat{\beta}_k^{(t)} - \beta_k^{(t)}) \Bigl( \Psi(N_k^{(t)} + \hat{\beta}_k^{(t)}) - \Psi(\hat{\beta}_k^{(t)}) \Bigr) - \ln \Gamma(N_k^{(t)} + \hat{\beta}_k^{(t)}) \Bigr] \\ &\qquad + \sum_{k=1}^K \sum_{v=1}^V \Bigl[ \ln \Gamma(N_{kv}^{(t)} + \hat{\beta}_k^{(t)} \hat{\phi}_{kv}^{(t-1)}) - \ln\Gamma(\hat{\beta}_k^{(t)} \hat{\phi}_{kv}^{(t-1)}) \Bigr.\\ &\qquad \Bigl. - \Bigl( \Psi(N_{kv}^{(t)} + \hat{\beta}_k^{(t)} \hat{\phi}_{kv}^{(t-1)}) - \Psi(\hat{\beta}_k^{(t)} \hat{\phi}_{kv}^{(t-1)}) \Bigr) \hat{\beta}_k^{(t)} \hat{\phi}_{kv}^{(t-1)} \Bigl( \ln \hat{\beta}_k^{(t)} + \ln \hat{\phi}_{kv}^{(t-1)} \Bigr) \Bigr.\\ &\qquad \Bigl. + \Bigl( \Psi(N_{kv}^{(t)} + \hat{\beta}_k^{(t)} \hat{\phi}_{kv}^{(t-1)}) - \Psi(\hat{\beta}_k^{(t)} \hat{\phi}_{kv}^{(t-1)}) \Bigr) \hat{\beta}_k^{(t)} \hat{\phi}_{kv}^{(t-1)} \Bigl( \ln \beta_k^{(t)} + \ln \hat{\phi}_{kv}^{(t-1)} \Bigr) \Bigr] \end{aligned} $$

 この式を$\beta_k^{(t)}$に関して微分して

$$ \frac{\partial F(\boldsymbol{\beta}^{(t)})}{\partial \beta_k^{(t)}} = - \Bigl( \Psi(N_k^{(t)} + \hat{\beta}_k^{(t)}) - \Psi(\hat{\beta}_k^{(t)}) \Bigr) + \sum_{v=1}^V \left[ \Bigl( \Psi(N_{kv}^{(t)} + \hat{\beta}_k^{(t)} \hat{\phi}_{kv}^{(t-1)}) - \Psi(\hat{\beta}_k^{(t)} \hat{\phi}_{kv}^{(t-1)}) \Bigr) \hat{\beta}_k^{(t)} \hat{\phi}_{kv}^{(t-1)} \frac{1}{\beta_k^{(t)}} \right] $$

$\frac{\partial \boldsymbol{\beta}^{(t)}}{\partial \beta_k^{(t)}} = 0$となる$\alpha_d^{(t)}$を求める。

$$ \begin{aligned} - \Bigl( \Psi(N_k^{(t)} + \hat{\beta}_k^{(t)}) - \Psi(\hat{\beta}_k^{(t)}) \Bigr) &+ \sum_{v=1}^V \left[ \Bigl( \Psi(N_{kv}^{(t)} + \hat{\beta}_k^{(t)} \hat{\phi}_{kv}^{(t-1)}) - \Psi(\hat{\beta}_k^{(t)} \hat{\phi}_{kv}^{(t-1)}) \Bigr) \hat{\beta}_k^{(t)} \hat{\phi}_{kv}^{(t-1)} \frac{1}{\beta_k^{(t)}} \right] = 0 \\ \beta_k^{(t)} &= \hat{\beta}_k^{(t)} \frac{ \sum_{v=1}^V \hat{\phi}_{kv}^{(t-1)} \Bigl( \Psi(N_{kv}^{(t)} + \hat{\beta}_k^{(t)} \hat{\phi}_{kv}^{(t-1)}) - \Psi(\hat{\beta}_k^{(t)} \hat{\phi}_{kv}^{(t-1)}) \Bigr) }{ \Psi(N_k^{(t)} + \hat{\beta}_k^{(t)}) - \Psi(\hat{\beta}_k^{(t)}) } \end{aligned} $$

 この式の右辺の$\hat{\beta}_k^{(t)}$を現ステップのパラメータ$\beta_k^{(t)}$、左辺の$\beta_k^{(t)}$を次ステップ(更新後)のパラメータ$\beta_k^{(t) \mathrm{new}}$とすると、$\beta_k^{(t)}$の更新式

$$ \beta_k^{(t) \mathrm{new}} = \beta_k^{(t)} \frac{ \sum_{v=1}^V \hat{\phi}_{kv}^{(t-1)} \Bigl( \Psi(N_{kv}^{(t)} + \beta_k^{(t)} \hat{\phi}_{kv}^{(t-1)}) - \Psi(\beta_k^{(t)} \hat{\phi}_{kv}^{(t-1)}) \Bigr) }{ \Psi(N_k^{(t)} + \beta_k^{(t)}) - \Psi(\beta_k^{(t)}) } $$

が得られる。こちらも$\beta_k^{(t) \mathrm{new}}$が$\beta_k^{(t+1)}$でないことに注意。

・過去の複数の時刻の情報を用いる場合

 過去$L$時刻分のパラメータの推定値$(\hat{\boldsymbol{\theta}}_d^{t-1}, \cdots, \hat{\boldsymbol{\theta}}_d^{t-L})$、$(\hat{\boldsymbol{\phi}}_k^{(t-1)}, \cdots, \hat{\boldsymbol{\phi}}_k^{(t-L)})$の情報を用いて、時刻$t$のパラメータ$\boldsymbol{\theta}_d^{(t)},\ \boldsymbol{\phi}_k^{(t)}$を推定することもできる。
 時刻$t$におけるトピック分布のパラメータを$\boldsymbol{\alpha}^{(t)} = (\boldsymbol{\alpha}_1^{(t)}, \cdots, \boldsymbol{\alpha}_D^{(t)})$、$\boldsymbol{\alpha}_d^{(t)} = (\alpha_{d1}^{(t)}, \cdots, \alpha_{dL}^{(t)})$とし、また単語分布のパラメータを$\boldsymbol{\beta}^{(t)} = (\boldsymbol{\beta}_1^{(t)}, \cdots, \boldsymbol{\beta}_K^{(t)})$、$\boldsymbol{\beta}_k^{(t)} = (\beta_{k1}^{(t)}, \cdots, \beta_{kL}^{(t)})$とする。そして時刻$t$における事前分布のパラメータを$L$時刻分の和$\sum_{l=1}^L \alpha_{dl}^{(t)} \hat{\boldsymbol{\theta}}_d^{(t-l)},\ \sum_{l=1}^L \beta_{kl}^{(t)} \hat{\boldsymbol{\phi}}_k^{(t-l)}$とする。
 これまでの1時刻前($t-1$期)のパラメータの推定値を用いて推定を行う方法は、$L = 1$の場合と解釈できる。従って事前分布のパラメータをそれぞれ置き換えることで、同様の手順でトピックのサンプリング確率とハイパーパラメータの更新式を求められる。

参考書籍

  • 岩田具治(2015)『トピックモデル』(機械学習プロフェッショナルシリーズ)講談社

おわりに

 上にも下にも添字が煩いですね。私はもう慣れました。
 これにて5章完了!いやぁ感無量。

 ところで

平均が前の時刻のトピック分布の推定値$\hat{\boldsymbol{\theta}}_{t-1,d}$のディリクレ分布$\mathrm{Dirichlet}(\boldsymbol{\theta}_{td} | \alpha_{td} \hat{\boldsymbol{\theta}}_{t-1,d})$から生成されるとします.パラメータ$\alpha_{td}$は,分散の逆数である精度と相関します.

ってどういう意味ですか?

 2020年11月5日は、つばきファクトリーのサブリーダー小片リサさんの22歳のお誕生日!

りさまるのパフォーマンス早く観たいーーー。

 さらにBEYOOOOONDSの山﨑夢羽さんの18歳のお誕生日!

おめでとうございまーーーーーす。

【次節の内容】

つづいたらいいな。