はじめに
機械学習プロフェッショナルシリーズの『トピックモデル』の勉強時に自分の理解の助けになったことや勉強会資料のまとめです。トピックモデルの各種アルゴリズムを「数式」と「プログラム」から理解することを目指します。
この記事は、4.1節「トピックモデル」と4.2節「グラフィカルモデル」の内容です。4章で用いるデータやパラメータに関する表記方法とトピックモデル(生成モデル,尤度)の定義を説明します。またDiagrammeR
パッケージを使って、各モデルのグラフィカルモデルを作成します。
【前節の内容】
【他の節一覧】
【この節の内容】
4.1 トピックモデル
3章の混合ユニグラムモデルでは、各文書が1つのトピックを持つと仮定した。トピックモデルでは、1つの文書が複数のトピックを持つと仮定する。各文書の単語ごとに1つのトピックを持ち、またそのトピックが持つ単語分布に従って確率的に単語が生成される(その単語の語彙(単語の種類)が決まる)と仮定する。
生成モデルの定義の前に、まずは4章で追加される表記について確認する。
トピックモデルでは、文書ごとにトピック分布を持つ。そのため、文書$d$のトピック分布を$\boldsymbol{\theta}_d = (\theta_{d1}, \theta_{d2}, \cdots, \theta_{dK})$とする。ここで$\theta_{dk}$は、文書$d$の単語がトピック$k$になる確率であり、次の定義に従う。
文書1のトピック分布$\boldsymbol{\theta}_1$から文書$D$のトピック分布$\boldsymbol{\theta}_D$までをまとめたものを、太字の大文字を使って$\boldsymbol{\Theta} = (\boldsymbol{\theta}_1, \boldsymbol{\theta}_2, \cdots, \boldsymbol{\theta}_D)$と表記する。これもトピック分布と呼ぶ。
トピックモデルでは、文書ごとに持つトピック分布に従い単語ごとにトピックが割り当てられる。文書$d$の$n$番目の単語$w_{dn}$のトピックを$z_{dn}$で表す。これは観測できないデータであるため、潜在変数(潜在トピック)とも呼ばれる。$z_{dn}$がトピック1から$K$の値をとることを、$z_{dn} \in \{1, 2, \cdots, K\}$で表す。
全ての文書の全ての単語(文書集合)$\mathbf{W}$のトピックをまとめたものを、太字の大文字を使って$\mathbf{Z} = (z_{11}, \cdots, z_{1N_1}, z_{21}, \cdots, z_{DN_D})$と表記する。これをトピック集合と呼ぶ。
その他4章で用いる記号類を次の表にまとめた。
・記号一覧
文書$d$の単語ベクトルは「文書$d$の1番目の単語$w_{d1}$」から「文書$d$の単語数$N_d$番目の単語$w_{dN_d}$」をまとめた$\mathbf{w}_d = (w_{d1}, \cdots, w_{dn}, \cdots, w_{dN_d})$です。下の一覧は間違っている(のですがすぐには差し替えられないのでいつか直します)のでご注意ください。
以上の表記を用いて、トピックモデルを定義する。
・生成モデル
トピックモデルは、単語ごとに割り当てられたトピックが持つ単語分布に従って(BOW表現の)文書集合$\mathbf{W}$が生成されると仮定した確率モデルであった。ここでは、その具体的な生成過程(定義)を確認する。
各トピックの単語分布$\boldsymbol{\phi}_k$が、(ハイパー)パラメータ$\beta$を持つディリクレ事前分布に従って生成される。
各文書のトピック分布$\boldsymbol{\theta}_d$が、(ハイパー)パラメータ$\alpha$を持つディリクレ事前分布に従って生成される。
各文書の単語ごとにトピックが、その文書のトピック分布$\boldsymbol{\theta}_d$をパラメータとするカテゴリ分布に従って割り当てられる。
各文書の単語(語彙)が、その単語に割り当てられたトピックの単語分布$\boldsymbol{\phi}_k$をパラメータとするカテゴリ分布に従って生成される。
以上の生成過程を仮定すると、パラメータ$\boldsymbol{\Theta},\ \boldsymbol{\Phi}$が与えられたときの文書集合$\mathbf{W}$の生成確率$p(\mathbf{W} | \boldsymbol{\Theta}, \boldsymbol{\Phi})$は、次のようになる。
【途中式の途中式】
- 各文書は独立に生成される(と仮定する)ことから、各文書の生成確率の積になる。
- 各単語は独立に生成される(と仮定する)ことから、各単語の生成確率の積になる。
- 全てのトピック$1, \cdots, K$を考慮(周辺化)した単語$w_{dn}$の生成確率と捉えられることから、周辺化したトピック$z_{dn}$を明示する。
- 乗法定理より、生成過程に従い分解する。
- それぞれ項を具体的な式に置き換える。
- 各文書の各単語に対するトピックの割り当て確率は$\theta_{dk}$である。
- 各単語に割り当てられたトピックに従う単語(語彙)の生成確率は$\phi_{kw_{dn}}$である。
- 各文書における各語彙の出現回数$N_{dv}$を用いて、単語レベルから語彙レベルに変換する。
続いて、パラメータ$\boldsymbol{\Theta},\ \boldsymbol{\Phi}$に事前分布を仮定する場合を考える。文書集合$\mathbf{W}$とパラメータ$\mathbf{Z},\ \boldsymbol{\Theta},\ \boldsymbol{\Phi}$の同時分布$p(\mathbf{W}, \mathbf{Z}, \boldsymbol{\Theta}, \boldsymbol{\Phi} | \alpha, \beta)$は、次のようになる。
【途中式の途中式】
- 乗法定理より、生成過程に従い分解する。
- それぞれ独立に生成されるとすることから、項を分解する。
- 各確率分布について、それぞれ具体的な式に置き換える。
- $p(w_{dn} | z_{dn} = k, \boldsymbol{\phi}_k) = \mathrm{Categorical}(w_{dn} | \boldsymbol{\phi}_{z_{dn}})$である。
- $p(z_{dn} = k | \boldsymbol{\theta}_d) = \mathrm{Categorical}(z_{dn} | \boldsymbol{\theta}_d)$である。
- $p(\boldsymbol{\theta}_d | \alpha) = \mathrm{Dirichlet}(\boldsymbol{\theta}_d | \alpha)$である。
- $p(\boldsymbol{\phi}_k | \beta) = \mathrm{Dirichlet}(\boldsymbol{\phi}_k | \beta)$である。
- 単語レベルから語彙レベルに変換する。またハイパーパラメータが一様な値をとる場合は、次のように計算できる。
次節では、パラメータ間の依存関係をグラフィカルモデルで確認する。
4.2 グラフィカルモデル
グラフィカルモデル表現は、生成モデルを表すためによく使われる。ノード(円)とエッジ(矢印)によって、モデル内の変数(パラメータ)の依存関係が直感的に捉えられる。
色付きのノードは観測変数、白地のノードは未知変数を表す。また、四角は繰り返しを、四角内の数字は繰り返し回数を表す。
# 利用パッケージ library(DiagrammeR)
DiagrammeR
パッケージを利用して作図する。
・ユニグラムモデル
まずは、2章で扱ったユニグラムモデルの生成モデル
を例とする。
ユニグラムモデルの事前分布$p(\boldsymbol{\phi} | \beta)$をグラフィカルモデルで表すと次のようになる。
・コード(クリックで展開)
# ユニグラムモデルの事前分布のグラフィカルモデル DiagrammeR::grViz(" digraph dot{ graph [rankdir = LR] node [shape = circle] beta [label = 'β'] phi [label = <<B>φ</B>>] edge [] beta -> phi; } ")
$\beta$に従って$\boldsymbol{\phi}$が決まることが矢印で示されている。
続いて、尤度$p(\mathbf{w} | \boldsymbol{\phi})$について見る。尤度の式は
と変形できる。この式をグラフィカルモデルで表すと次のようになる。
・コード(クリックで展開)
# ユニグラムモデルの尤度のグラフィカルモデル DiagrammeR::grViz(" digraph dot{ graph [rankdir = LR] node [shape = circle] phi [label = <<B>φ</B>>] subgraph cluster_D{ label = D subgraph cluster_N{ label = N w [label = 'w@_{dn}', style = filled, filledcolor = 'gray'] } } edge [] phi -> w; } ")
文書集合の単語$w_{dn}$は、観測データなので色付きのノードで表現する。また単語$w_{dn}$が$n = 1, \cdots, N_d$の$N_d$個で単語ベクトル(文書)$\mathbf{w}_d$となり、単語ベクトル$\mathbf{w}_d$が$d = 1, \cdots, D$の$D$個で文書集合$\mathbf{W}$となる。それを2重の四角と$D,\ N$で表している。
その文書集合の各変数$w_{dn}$が、単語分布$\boldsymbol{\phi}$に従って生成されることを矢印が示している。
尤度と事前分布を組み合わせたユニグラムモデルのグラフィカルモデルは、次のようになる。
・コード(クリックで展開)
# ユニグラムモデルのグラフィカルモデル DiagrammeR::grViz(" digraph dot{ graph [rankdir = LR] node [shape = circle] beta [label = 'β'] phi [label = <<B>φ</B>>] subgraph cluster_D{ label = D subgraph cluster_N{ label = N w [label = 'w@_{dn}', style = filled, filledcolor = 'gray'] } } edge [] beta -> phi -> w } ")
$\beta$によって$\boldsymbol{\phi}$が生成され、またその$\boldsymbol{\phi}$によって$w_{dn}$が生成されるユニグラムモデルの生成モデルが表されている。
・混合ユニグラムモデル
混合ユニグラムモデルの生成モデルは、次のように分解できる。
従って、グラフィカルモデルは次のようになります。
・コード(クリックで展開)
# 混合ユニグラムモデルのグラフィカルモデル DiagrammeR::grViz(" digraph dot{ graph [rankdir = LR] node [shape = circle] subgraph Cluster_alpha{ alpha [label = 'α'] theta [label = <<B>θ</B>>] subgraph cluster_D{ label = D z [label = 'z@_{dn}'] subgraph cluster_N{ label = N w [label = 'w@_{dn}', style = filled, filledcolor = 'gray'] } } edge [] alpha -> theta -> z -> w; } subgraph Cluster_beta{ beta [label = 'β'] subgraph cluster_K{ label = K phi [label = <<B>φ</B>@_{k}>] } edge [] beta -> phi -> w; } } ")
ユニグラムモデルと比較して、トピックという概念を導入したことで、文書集合(各単語)$w_{dn}$が2つのパラメータ$\boldsymbol{\theta},\ \boldsymbol{\Phi}$に依存するようになったことが分かる。
・トピックモデル
トピックモデルの生成モデルは、次のように分解できます。
従って、グラフィカルモデルは次のようになります。
・コード(クリックで展開)
# トピックモデルのグラフィカルモデル DiagrammeR::grViz(" digraph dot{ graph [rankdir = LR] node [shape = circle] subgraph Cluster_alpha{ alpha [label = 'α'] subgraph cluster_D{ label = D theta [label = <<B>θ</B>@_{d}>] subgraph cluster_N{ label = N z [label = 'z@_{dn}'] w [label = 'w@_{dn}', style = filled, filledcolor = 'gray'] } } edge [] alpha -> theta -> z -> w; } subgraph Cluster_beta{ beta [label = 'β'] subgraph cluster_K{ label = K phi [label = <<B>φ</B>@_{k}>] } edge [] beta -> phi -> w; } } ")
混合ユニグラムモデルと比較して、トピックを単語ごとに割り当てることで、トピック分布が文書数$D$個、トピック集合が各文書の単語数$N_d$個に増えたことが、四角で囲われた範囲から分かる。
参考書籍
- 岩田具治(2015)『トピックモデル』(機械学習プロフェッショナルシリーズ)講談社
おわりに
漸くトピックモデルにまで辿り着きました!
2019/07/30:加筆修正しました。
2020/08/24:加筆修正しました。
【次節の内容】