はじめに
機械学習プロフェッショナルシリーズの『トピックモデル』の勉強時に自分の理解の助けになったことや勉強会資料のまとめです。トピックモデルの各種アルゴリズムを「数式」と「プログラム」から理解することを目指します。本とあわせて読んでください。
この記事は、5.2節「対応トピックモデル(Correspondence Topic Model)」の内容です。対応トピックモデルのパラメータを崩壊型ギブスサンプリングにより推定します。
【前節の内容】
www.anarchive-beta.com
【他の節一覧】
www.anarchive-beta.com
【この節の内容】
5.2 対応トピックモデル
結合トピックモデルでは、単語のトピックと補助情報のトピックは独立に決まりました。対応トピックモデルでは、各文書において単語に割り当てられたトピックのみから補助情報のトピックが決まります。
共通する部分が多々あるので、「4.5:トピックモデルのギブスサンプリング【『トピックモデル』の勉強ノート】 - からっぽのしょこ」も参照してください。
・生成過程
これまでと同様に、変数$w_{dn},\ x_{dm}$はそれぞれパラメータ$\boldsymbol{\phi}_k,\ \boldsymbol{\psi}_k$を持つカテゴリ分布に、潜在変数$z_{dn},\ y_{dm}$はパラメータ$\boldsymbol{\theta}_d,\ (\frac{N_{d1}}{N_d}, \cdots, \frac{N_{dk}}{N_d}, \cdots, \frac{N_{dK}}{N_d})$を持つカテゴリ分布に、パラメータ$\boldsymbol{\theta}_d,\ \boldsymbol{\phi}_k,\ \boldsymbol{\psi}_k$はそれぞれハイパーパラメータ$\alpha,\ \beta,\ \gamma$を持つディリクレ分布に従って生成されると仮定する。詳しくは図5.5を参照のこと。
・記号一覧
この節では、4章までと5.1節で定義した記号を用いる。
・グラフィカルモデル
対応トピックモデルをグラフィカルモデルで表現すると、次の図になる。
・作図用のRコード(クリックで展開)
library(DiagrammeR)
DiagrammeR::grViz("
digraph CorrespondenceTM{
graph [rankdir = LR]
node [shape = circle, fixedsize = ture, fontname = 'Times-Italic']
alpha [label = 'α']
subgraph cluster_D{
label = D
theta [label = <<B>θ</B>@_{d}>]
subgraph cluster_N{
label = 'N@_{d}'
z [label = 'z@_{dn}']
w [label = 'w@_{dn}', style = filled, filledcolor = 'gray']
}
subgraph cluster_M{
label = 'M@_{d}'
y [label = 'y@_{dm}']
x [label = 'x@_{dm}', style = filled, filledcolor = 'gray']
}
}
beta [label = 'β']
gamma [label = 'γ']
subgraph cluster_K{
label = K
phi [label = <<B>φ</B>@_{k}>]
psi [label = <<B>ψ</B>@_{k}>]
}
edge []
alpha -> theta -> z;
z -> {w, y};
w -> phi[dir = back];
phi -> beta[dir = back];
y -> x;
x -> psi[dir = back];
psi -> gamma[dir = back];
}
")
(少しズレているのはただの私の{DiagrammeR}
力不足です…)
・生成モデル
生成過程に従うと、文書集合$\mathbf{W}$と補助情報集合$\mathbf{X}$の同時分布は
$$
\begin{aligned}
p(\mathbf{W}, \mathbf{X} | \boldsymbol{\Theta}, \boldsymbol{\Phi}, \boldsymbol{\Psi})
&= \prod_{d=1}^D
p(\mathbf{w}_d, \mathbf{x}_d | \boldsymbol{\theta}_d, \boldsymbol{\Phi}, \boldsymbol{\Psi})
\\
&= \prod_{d=1}^D
\sum_{\mathbf{z}_d}
p(\mathbf{w}_d, \mathbf{x}_d, \mathbf{z}_d | \boldsymbol{\theta}_d, \boldsymbol{\Phi}, \boldsymbol{\Psi})
\\
&= \prod_{d=1}^D
\sum_{\mathbf{z}_d} \Bigl[
p(\mathbf{z}_d | \boldsymbol{\theta}_d)
p(\mathbf{w}_d | \mathbf{z}_d, \boldsymbol{\Phi})
p(\mathbf{x}_d | \mathbf{z}_d, \boldsymbol{\Psi})
\Bigr]
\\
&= \prod_{d=1}^D
\sum_{\mathbf{z}_d} \left[
\prod_{n=1}^{N_d}
p(z_{dn} | \boldsymbol{\theta}_d)
p(w_{dn} | z_{dn}, \boldsymbol{\Phi})
\prod_{m=1}^{M_d}
p(x_{dm} | \mathbf{z}_d, \boldsymbol{\Psi})
\right]
\\
&= \prod_{d=1}^D
\sum_{\mathbf{z}_d} \left[
\prod_{n=1}^{N_d}
p(z_{dn} | \boldsymbol{\theta}_d)
p(w_{dn} | \boldsymbol{\phi}_{z_{dn}})
\prod_{m=1}^{M_d} \sum_{k=1}^K
p(x_{dm}, y_{dm} = k | \mathbf{z}_d, \boldsymbol{\psi}_k)
\right]
\\
&= \prod_{d=1}^D \sum_{\mathbf{z}_d} \left[
\prod_{n=1}^{N_d}
p(z_{dn} | \boldsymbol{\theta}_d)
p(w_{dn} | \boldsymbol{\phi}_{z_{dn}})
\prod_{m=1}^{M_d} \sum_{k=1}^K
p(y_{dm} = k | \mathbf{z}_d)
p(x_{dm} | y_{dm} = k, \boldsymbol{\psi}_k)
\right]
\end{aligned}
$$
【途中式の途中式】
- 文書ごとの積に分解する。
- 周辺化されていた潜在トピック$z_{dn}$を明示する。
- 生成過程に従い乗法定理より、それぞれ項を分解する。
- 各単語、各補助情報の積に分解する。
- 周辺化されていた潜在トピック$y_{dm}$を明示する。
- 乗法定理より、後の項を分解する。
と分解できる。ここで$\sum_{\mathbf{z}_d} \equiv \sum_{z_{d1}=1}^K, \sum_{z_{d2}=1}^K, \cdots, \sum_{z_{dN_d}=1}^K$は、全ての単語のトピックに関する和を表す。
・サンプリング確率
・パラメータの周辺化
パラメータ$\boldsymbol{\Theta},\ \boldsymbol{\Phi},\ \boldsymbol{\Psi}$を周辺化した、観測データ$\mathbf{W},\ \mathbf{X}$と潜在トピック$\mathbf{Z},\ \mathbf{Y}$の周辺同時分布(周辺同時尤度)は
$$
\begin{align}
p(\mathbf{W}, \mathbf{X}, \mathbf{Z}, \mathbf{Y} | \alpha, \beta, \gamma)
&= \int \int \int
p(\mathbf{W}, \mathbf{X}, \mathbf{Z}, \mathbf{Y}, \boldsymbol{\Theta}, \boldsymbol{\Phi}, \boldsymbol{\Psi} | \alpha, \beta, \gamma)
d\boldsymbol{\Theta} d\boldsymbol{\Phi} d\boldsymbol{\Psi}
\\
&= \int
p(\mathbf{Z} | \boldsymbol{\Theta})
p(\boldsymbol{\Theta} | \alpha)
d\boldsymbol{\Theta}
\int
p(\mathbf{W} | \mathbf{Z}, \boldsymbol{\Phi})
p(\boldsymbol{\Phi} | \beta)
d\boldsymbol{\Phi}
\int
p(\mathbf{X} | \mathbf{Y}, \boldsymbol{\Psi})
p(\boldsymbol{\Psi} | \gamma)
d\boldsymbol{\Psi}
p(\mathbf{Y} | \mathbf{Z})
\\
&= p(\mathbf{Z} | \alpha)
p(\mathbf{W} | \mathbf{Z}, \beta)
p(\mathbf{Y} | \mathbf{Z})
p(\mathbf{X} | \mathbf{Y}, \gamma)
\tag{5.2.1}
\end{align}
$$
と分解できる。
分解した各分布の具体的な式を求めていく。1つ目の項$p(\mathbf{Z} | \alpha)$は、4.5節で求めた
$$
p(\mathbf{Z} | \alpha)
= \frac{\Gamma(\alpha K)^D}{\Gamma(\alpha)^{KD}}
\prod_{d=1}^D
\frac{
\prod_{k=1}^K \Gamma(N_{dk} + \alpha)
}{
\Gamma(N_d + \alpha K)
}
\tag{4.10}
$$
である。
2つ目の項$p(\mathbf{W} | \mathbf{Z}, \beta)$も、4.5節で求めた
$$
p(\mathbf{W} | \mathbf{Z}, \beta)
= \frac{\Gamma(\beta V)^K}{\Gamma(\beta)^{VK}}
\prod_{k=1}^K
\frac{
\prod_{v=1}^V \Gamma(N_{kv} + \beta)
}{
\Gamma(N_k + \beta V)
}
\tag{4.11}
$$
である。
3つ目の項$p(\mathbf{Y} | \mathbf{Z})$は
$$
\begin{align}
p(\mathbf{Y} | \mathbf{Z})
&= \prod_{d=1}^D \prod_{m=1}^{M_d}
p\left(
y_{dm} \middle| \frac{N_{d1}}{N_d}, \frac{N_{d2}}{N_d}, \cdots, \frac{N_{dK}}{N_d}
\right)
\\
&= \prod_{d=1}^D \prod_{m=1}^{M_d}
\frac{N_{dy_{dm}}}{N_d}
\\
&= \prod_{d=1}^D \prod_{k=1}^K
\Bigl(\frac{N_{dk}}{N_d}\Bigr)^{M_{dk}}
\tag{5.2.2}
\end{align}
$$
・【途中式の途中式】(クリックで展開)
10語($N_d = 10$)で構成されたある文書$d$について考える。この文書は、単語ベクトル$\mathbf{w}_d = (w_{d1}, w_{d2}, \cdots, w_{d10})$で表現できる。このとき、この文書のトピック集合は$\mathbf{z}_d = (z_{d1}, z_{d2}, \cdots, z_{d10})$となる。トピック数を5($K = 5$)として、各単語のトピックが$\mathbf{z}_d = (5, 3, 1, 4, 4, 4, 1, 3, 4, 4)$であったとする。このとき、トピックの割合ベクトル$\bar{\boldsymbol{\theta}}_d = (\frac{N_{d1}}{N_d}, \frac{N_{d2}}{N_d}, \cdots, \frac{N_{d5}}{N_d})$は、$\bar{\boldsymbol{\theta}}_d = (\frac{2}{10}, \frac{0}{10}, \frac{2}{10}, \frac{5}{10}, \frac{1}{10})$となる。
対応トピックモデルでは、割り当てられたトピックの割合ベクトル$\bar{\boldsymbol{\theta}}_d$をパラメータとするカテゴリ分布に従って、補助情報$x_{dm}$のトピック$y_{dm}$が割り当てられると仮定する。つまり
$$
p(y_{dm} | \mathbf{z}_d)
= p(y_{dm} | \bar{\boldsymbol{\theta}}_d)
= \mathrm{Categorical}(y_{dm} | \bar{\boldsymbol{\theta}}_d)
$$
である。よって$y_{dm}$がトピック$k$となる($x_{dm}$にトピック$k$が割り当てられる)確率は
$$
p(y_{dm} | \mathbf{z}_d)
= \frac{N_{dk}}{N_d}
$$
である。また、特定のトピックではなく$x_{dm}$に割り当てられたトピック$y_{dm}$に関する確率(割合)を表すとき、$\frac{N_{dy_{dm}}}{N_d}$と表記する。
つまり先ほどの例において、文書$d$の補助情報数を5($M_d = 5$)として、補助情報ベクトル$\mathbf{x}_d = (x_{d1}, x_{d2}, \cdots, x_{d5})$のトピック$\mathbf{y}_d = (y_{d1}, y_{d2}, \cdots, y_{d5})$が$\mathbf{y}_d = (4, 5, 3, 1, 1)$であったとすると、その確率は
$$
\begin{aligned}
p(\mathbf{y}_d | \mathbf{z}_d)
&= \prod_{m=1}^5
p(y_{dm} | \bar{\boldsymbol{\theta}}_d)
\\
&= \frac{N_{dy_{d1}}}{N_d}
\frac{N_{dy_{d2}}}{N_d}
\frac{N_{dy_{d3}}}{N_d}
\frac{N_{dy_{d4}}}{N_d}
\frac{N_{dy_{d5}}}{N_d}
\\
&= \frac{N_{d4}}{N_d}
\frac{N_{d5}}{N_d}
\frac{N_{d3}}{N_d}
\frac{N_{d1}}{N_d}
\frac{N_{d1}}{N_d}
\end{aligned}
$$
で計算できる。これを更に整理すると
$$
\begin{aligned}
p(\mathbf{y}_d | \mathbf{z}_d)
&= \Bigl(\frac{N_{d1}}{N_d}\Bigr)^2
\Bigl(\frac{N_{d2}}{N_d}\Bigr)^0
\Bigl(\frac{N_{d3}}{N_d}\Bigr)^1
\Bigl(\frac{N_{d4}}{N_d}\Bigr)^1
\Bigl(\frac{N_{d5}}{N_d}\Bigr)^1
\\
&= \prod_{k=1}^5
\Bigl(\frac{N_{dk}}{N_d}\Bigr)^{M_{dk}}
\end{aligned}
$$
となる。ここで$M_{dk}$は、文書$d$においてトピック$k$となった補助情報の数である。また$x^0 = 1$である。
つまり補助情報ごとの積$\prod_{m=1}^{M_d}$からトピックごとの積$\prod_{k=1}^K$に置き換えるとき、各トピックにおいて重複する$M_{dk}$個の項を指数によって表現できる。
となる。
最後の項$p(\mathbf{X} | \mathbf{Y}, \gamma)$は、5.1節で求めた
$$
p(\mathbf{X} | \mathbf{Y}, \gamma)
= \frac{\Gamma(\gamma S)^K}{\Gamma(\gamma)^{SK}}
\prod_{k=1}^K
\frac{
\prod_{s=1}^S \Gamma(M_{ks} + \gamma)
}{
\Gamma(M_k + \gamma S)
}
\tag{5.1.3}
$$
である。
この周辺同時分布(5.2.1)を用いて、各単語のトピック、各補助情報のトピックのサンプリング確率を求める。
・単語のトピックのサンプリング式の導出
ある単語のトピック$z_{dn}$が$k$となる確率は、4.5節と同様に周辺同時分布にベイズの定理を用いて
$$
\begin{aligned}
p(z_{dn} = k | \mathbf{W}, \mathbf{X}, \mathbf{Z}_{\backslash dn}, \mathbf{Y}, \alpha, \beta, \gamma)
&= \frac{
p(w_{dn}, \mathbf{W}_{\backslash dn}, \mathbf{X}, z_{dn} = k, \mathbf{Z}_{\backslash dn}, \mathbf{Y} | \alpha, \beta, \gamma)
}{
p(\mathbf{W}, \mathbf{X}, \mathbf{Z}_{\backslash dn}, \mathbf{Y}, \alpha, \beta, \gamma)
}
\\
&\propto
p(w_{dn}, \mathbf{W}_{\backslash dn}, \mathbf{X}, z_{dn} = k, \mathbf{Z}_{\backslash dn}, \mathbf{Y} | \alpha, \beta, \gamma)
\\
&= p(w_{dn} | \mathbf{W}_{\backslash dn}, \mathbf{Z}, \beta)
p(\mathbf{W}_{\backslash dn} | \mathbf{Z}_{\backslash dn}, \beta)
p(\mathbf{X} | \mathbf{Y}, \gamma)
p(\mathbf{Y} | z_{dn} = k, \mathbf{Z}_{\backslash dn}) \\
&\qquad *
p(z_{dn} = k | \mathbf{Z}_{\backslash dn}, \alpha)
p(\mathbf{Z}_{\backslash dn} | \alpha)
\\
&\propto
p(w_{dn} | \mathbf{W}_{\backslash dn}, \mathbf{Z}, \beta)
p(\mathbf{y}_d | z_{dn} = k, \mathbf{z}_{d \backslash dn})
p(z_{dn} = k | \mathbf{Z}_{\backslash dn}, \alpha)
\end{aligned}
$$
で求められる。適宜$z_{dn}$に影響しない項を省いている。
1つ目の項は、4.5節で求めた
$$
p(w_{dn} | \mathbf{W}_{\backslash dn}, \mathbf{Z}, \beta)
= \frac{
N_{kw_{dn} \backslash dn} + \beta
}{
N_{k \backslash dn} + \beta V
}
\tag{4.14}
$$
である。
2つ目の項は、式(5.2.2)を用いて
$$
\begin{aligned}
p(\mathbf{y}_d | z_{dn} = k, \mathbf{z}_{d \backslash dn})
&= \Bigl(\frac{N_{d1}}{N_d}\Bigr)^{M_{d1}}
\cdots
\Bigl(\frac{N_{dk}}{N_d}\Bigr)^{M_{dk}}
\cdots
\Bigl(\frac{N_{dK}}{N_d}\Bigr)^{M_{dK}}
\\
&= \Bigl(\frac{N_{d1 \backslash dn}}{N_d}\Bigr)^{M_{d1}}
\cdots
\Bigl(\frac{N_{dk \backslash dn} + 1}{N_d}\Bigr)^{M_{dk}}
\cdots
\Bigl(\frac{N_{dK \backslash dn}}{N_d}\Bigr)^{M_{dK}}
\\
&= \Bigl(\frac{N_{d1 \backslash dn}}{N_d}\Bigr)^{M_{d1}}
\cdots
\Bigl(\frac{N_{dk \backslash dn} + 1}{N_{dk \backslash dn}}\Bigr)^{M_{dk}}
\Bigl(\frac{N_{dk \backslash dn}}{N_d}\Bigr)^{M_{dk}}
\cdots
\Bigl(\frac{N_{dK \backslash dn}}{N_d}\Bigr)^{M_{dK}}
\\
&= \Bigl(\frac{N_{dk \backslash dn} + 1}{N_{dk \backslash dn}}\Bigr)^{M_{dk}}
p(\mathbf{y}_d | \mathbf{z}_{d \backslash dn})
\end{aligned}
$$
【途中式の途中式】
- 各トピックが割り当てられた単語数$N_{d1}, \cdots, N_{dK}$を、$z_{dn}$を除いた値$N_{d1 \backslash dn}, \cdots, N_{dK \backslash dn}$に置き換える。ただし$p(\mathbf{y}_d | z_{dn} = k, \mathbf{z}_{d \backslash dn})$は$z_{dn} = k$を含んでいるため、トピック$k$に関する単語数は$N_{dk} = N_{dk \backslash dn} + 1$である。$k$以外のトピック$k'$については、そもそも$z_{dn}$を数に含んでいないため$N_{dk'} = N_{dk' \backslash dn}$である。詳しくは4.5.2項を参照のこと。
- トピック$k$に関する項について、分母分子を分割$\frac{(N_{dk \backslash dn} + 1)^{M_{dk}}}{1} \frac{1}{N_d^{M_{dk}}}$して、そこに$(\frac{N_{dk \backslash dn}}{N_{dk \backslash dn}})^{M_{dk}} = 1$を分割して掛ける。
- 式(5.2.2)より、$p(\mathbf{y}_d | \mathbf{z}_{d \backslash dn}) = \prod_{k=1}^K (\frac{N_{dk \backslash dn}}{N_{d \backslash dn}})^{M_{dk}}$より置き換える。
となる。
最後の項も、4.5節で求めた
$$
p(z_{dn} = k | \mathbf{Z}_{\backslash dn}, \alpha)
= \frac{
N_{dk\backslash dn} + \alpha
}{
N_d - 1 + \alpha K
}
\tag{4.13}
$$
である。
それぞれ代入して、$z_{dn}$に影響しない項を省くと
$$
\begin{align}
p(z_{dn} = k | \mathbf{W}, \mathbf{X}, \mathbf{Z}_{\backslash dn}, \mathbf{Y}, \alpha, \beta, \gamma)
&\propto
\frac{
N_{dk\backslash dn} + \alpha
}{
N_d - 1 + \alpha K
}
\frac{
N_{kw_{dn} \backslash dn} + \beta
}{
N_{k \backslash dn} + \beta V
} \Bigl(
\frac{N_{dk \backslash dn} + 1}{N_{dk \backslash dn}}\Bigr
)^{M_{dk}}
p(\mathbf{y}_d | \mathbf{z}_{d \backslash dn})
\\
&\propto
(N_{dk\backslash dn} + \alpha)
\frac{
N_{kw_{dn} \backslash dn} + \beta
}{
N_{k \backslash dn} + \beta V
} \Bigl(
\frac{N_{dk \backslash dn} + 1}{N_{dk \backslash dn}}\Bigr
)^{M_{dk}}
\tag{5.3}
\end{align}
$$
が得られる。
・補助情報のトピックのサンプリング式の導出
ある補助情報のトピック$y_{dm}$が$k$となる確率についても同様に、周辺同時分布にベイズの定理を用いて
$$
\begin{aligned}
p(y_{dm} = k | \mathbf{W}, \mathbf{X}, \mathbf{Z}, \mathbf{Y}_{\backslash dm}, \alpha, \beta, \gamma)
&= \frac{
p(\mathbf{W}, x_{dm}, \mathbf{X}_{\backslash dm}, \mathbf{Z}, y_{dm} = k, \mathbf{Y}_{\backslash dm} | \alpha, \beta, \gamma)
}{
p(\mathbf{W}, \mathbf{X}, \mathbf{Z}, \mathbf{Y}_{\backslash dm}, \alpha, \beta, \gamma)
}
\\
&\propto
p(\mathbf{W}, x_{dm}, \mathbf{X}_{\backslash dm}, \mathbf{Z}, y_{dm} = k, \mathbf{Y}_{\backslash dm} | \alpha, \beta, \gamma)
\\
&= p(\mathbf{W} | \mathbf{Z}, \beta)
p(x_{dm} | \mathbf{X}_{\backslash dm}, \mathbf{Y}, \gamma)
p(\mathbf{X}_{\backslash dm} | \mathbf{Y}_{\backslash dm}, \gamma) \\
&\qquad *
p(y_{dm} = k | \mathbf{Z}, \mathbf{Y}_{\backslash dm})
p(\mathbf{Y}_{\backslash dm} | \mathbf{Z})
p(\mathbf{Z} | \alpha)
\\
&\propto
p(x_{dm} | \mathbf{X}_{\backslash dm}, \mathbf{Y}, \gamma)
p(y_{dm} = k | \mathbf{Z}, \mathbf{Y}_{\backslash dm})
\end{aligned}
$$
で求められる。適宜$y_{dm}$に影響しない項を省いている。
前の項は、5.1節で求めた
$$
p(x_{dm} | \mathbf{X}_{\backslash dm}, \mathbf{Y}, \gamma)
= \frac{
M_{kx_{dm} \backslash dm} + \gamma
}{
M_{k \backslash dm} + \gamma S
}
$$
である。
後の項は、式(5.2.2)に対してベイズの定理を用いて
$$
\begin{aligned}
p(y_{dm} = k | \mathbf{Z}, \mathbf{Y}_{\backslash dm})
&= \frac{
p(y_{dm} = k, \mathbf{Y}_{\backslash dm} | \mathbf{Z})
}{
p(\mathbf{Y}_{\backslash dm} | \mathbf{Z})
}
\\
&= \frac{N_{dy_{dm}}}{N_{d}}
\left[ \prod_{m'\neq m}
\frac{N_{dy_{dm'}}}{N_{d}}
\frac{N_{d}}{N_{dy_{dm'}}}
\right]
\left[ \prod_{d'\neq d} \prod_{m=1}^{M_{d'}}
\frac{N_{dy_{d'm}}}{N_{d'}}
\frac{N_{d'}}{N_{dy_{d'm}}}
\right]
\\
&= \frac{N_{dk}}{N_d}
\end{aligned}
$$
【途中式の途中式】
- 分母は$y_{dm}$に関する項を含まないため、式全体を文書$d$とそれ以外の文書$d'$、更に文書$d$の$m$番目の単語とそれ以外の単語$m'$に分けて計算する。
- 約分すると$y_{dm}$に関する項のみが残る。また$y_{dm} = k$を代入する。
となる。
それぞれ代入すると
$$
\begin{align}
p(y_{dm} = k | \mathbf{W}, \mathbf{X}, \mathbf{Z}, \mathbf{Y}_{\backslash dm}, \alpha, \beta, \gamma)
&\propto
\frac{N_{dk}}{N_d}
\frac{
M_{kx_{dm} \backslash dm} + \gamma
}{
M_{k \backslash dm} + \gamma S
}
\\
&\propto
N_{dk}
\frac{
M_{kx_{dm} \backslash dm} + \gamma
}{
M_{k \backslash dm} + \gamma S
}
\tag{5.4}
\end{align}
$$
が得られる。
・ハイパーパラメータ推定
ハイパーパラメータの更新式は、周辺同時分布(5.2.1)に対して不動点反復法を用いて求める。
対応トピックモデルの周辺同時分布において、トピック分布のパラメータ$\alpha$に関わる項$p(\mathbf{Z} | \alpha)$、単語分布のパラメータ$\beta$に関わる項$p(\mathbf{W} | \mathbf{Z}, \beta)$は、基本形のトピックモデル(4.5節)のものと同じ形状である。従って、ハイパーパラメータ$\alpha,\ \beta$の更新式も同じ式になる。補助情報分布のパラメータ$\gamma$についても同様に、$p(\mathbf{X} | \mathbf{Y}, \gamma)$が結合トピックモデル(5.2節)のものと同じ形状であるため、更新式も同じ式になる。
参考書籍
- 岩田具治(2015)『トピックモデル』(機械学習プロフェッショナルシリーズ)講談社
おわりに
丸1日で解けました!いやぁ気持ちいい。前節のは1週間ほど唸ってました。まぁ理解してみれば前節とそう変わらないから当然と言えば当然なんですがね。でも変わらないことを理解するのに半日、違うところへの理解を深めるのに半日かかるんですよ。
さて次節はこれを更に複雑にしたものですが、どれくらいかかるでしょうか。
2020年10月6日は、アンジュルムの橋迫鈴ちゃんのお誕生日!夢見る15歳♪
(ちなみにサムネの方ではないです。)
【次節の内容】
www.anarchive-beta.com