はじめに
『パターン認識と機械学習』の独学時のまとめです。一連の記事は「数式の行間埋め」または「R・Pythonでのスクラッチ実装」からアルゴリズムの理解を補助することを目的としています。本とあわせて読んでください。
この記事は、2.3.2項の内容です。多変量正規分布から周辺分布を導出します。
【実装編】
www.anarchive-beta.com
【前節の内容】
www.anarchive-beta.com
【他の節一覧】
www.anarchive-beta.com
【この節の内容】
2.3.2 周辺ガウス分布
2つの変数$\mathbf{x}_a, \mathbf{x}_b$の同時分布$p(\mathbf{x}_a, \mathbf{x}_b)$がガウス分布の場合、一方の変数を周辺化(積分)した分布$p(\mathbf{x}_a)$もガウス分布になることを確認します。分割した変数とパラメータについては「2.3.1:条件付きガウス分布の導出【PRMLのノート】 - からっぽのしょこ」を参照してください。
$\mathbf{x}_b$を周辺化(積分消去)した$\mathbf{x}_a$の周辺分布
$$
p(\mathbf{x}_a)
= \int
p(\mathbf{x}_a, \mathbf{x}_b)
d\mathbf{x}_b
= \frac{1}{(2 \pi)^{\frac{D}{2}}}
\frac{1}{|\boldsymbol{\Sigma}|^{\frac{1}{2}}}
\int
\exp \left\{
- \frac{1}{2}
(\mathbf{x} - \boldsymbol{\mu})^{\top}
\boldsymbol{\Sigma}^{-1}
(\mathbf{x} - \boldsymbol{\mu})
\right\}
d\mathbf{x}_b
\tag{2.83}
$$
を考えます。
・二次形式の展開
$\mathbf{x}$の分布(2.43)の指数部分の二次形式を、分割した変数とパラメータを用いて展開すると式(2.70)になるのでした。それを更に展開します。
$$
\begin{align}
- \frac{1}{2}
(\mathbf{x} - \boldsymbol{\mu})^{\top}
\boldsymbol{\Sigma}^{-1}
(\mathbf{x} - \boldsymbol{\mu})
&= - \frac{1}{2}
(\mathbf{x}_a - \boldsymbol{\mu}_a)^{\top} \boldsymbol{\Lambda}_{a,a} (\mathbf{x}_a - \boldsymbol{\mu}_a)
- \frac{1}{2}
(\mathbf{x}_b - \boldsymbol{\mu}_b)^{\top} \boldsymbol{\Lambda}_{b,a} (\mathbf{x}_a - \boldsymbol{\mu}_a)
\Bigr. \\
&\quad \Bigl.
- \frac{1}{2}
(\mathbf{x}_a - \boldsymbol{\mu}_a)^{\top} \boldsymbol{\Lambda}_{a,b} (\mathbf{x}_b - \boldsymbol{\mu}_b)
- \frac{1}{2}
(\mathbf{x}_b - \boldsymbol{\mu}_b)^{\top} \boldsymbol{\Lambda}_{b,b} (\mathbf{x}_b - \boldsymbol{\mu}_b)
\tag{2.70}\\
&= - \frac{1}{2} \Bigl(
\mathbf{x}_a^{\top} \boldsymbol{\Lambda}_{a,a} \mathbf{x}_a
- \mathbf{x}_a^{\top} \boldsymbol{\Lambda}_{a,a} \boldsymbol{\mu}_a
- \boldsymbol{\mu}_a^{\top} \boldsymbol{\Lambda}_{a,a} \mathbf{x}_a
+ \boldsymbol{\mu}_a^{\top} \boldsymbol{\Lambda}_{a,a} \boldsymbol{\mu}_a
\Bigr) \\
&\quad
- \frac{1}{2} \Bigl(
\mathbf{x}_b^{\top} \boldsymbol{\Lambda}_{b,a} \mathbf{x}_a
- \mathbf{x}_b^{\top} \boldsymbol{\Lambda}_{b,a} \boldsymbol{\mu}_a
- \boldsymbol{\mu}_b^{\top} \boldsymbol{\Lambda}_{b,a} \mathbf{x}_a
+ \boldsymbol{\mu}_b^{\top} \boldsymbol{\Lambda}_{b,a} \boldsymbol{\mu}_a
\Bigr) \\
&\quad
- \frac{1}{2} \Bigl(
\mathbf{x}_a^{\top} \boldsymbol{\Lambda}_{a,b} \mathbf{x}_b
- \mathbf{x}_a^{\top} \boldsymbol{\Lambda}_{a,b} \boldsymbol{\mu}_b
- \boldsymbol{\mu}_a^{\top} \boldsymbol{\Lambda}_{a,b} \mathbf{x}_b
+ \boldsymbol{\mu}_a^{\top} \boldsymbol{\Lambda}_{a,b} \boldsymbol{\mu}_b
\Bigr) \\
&\quad
- \frac{1}{2} \Bigl(
\mathbf{x}_b^{\top} \boldsymbol{\Lambda}_{b,b} \mathbf{x}_b
- \mathbf{x}_b^{\top} \boldsymbol{\Lambda}_{b,b} \boldsymbol{\mu}_b
- \boldsymbol{\mu}_b^{\top} \boldsymbol{\Lambda}_{b,b} \mathbf{x}_b
+ \boldsymbol{\mu}_b^{\top} \boldsymbol{\Lambda}_{b,b} \boldsymbol{\mu}_b
\Bigr)
\\
&= - \frac{1}{2}
\mathbf{x}_a^{\top} \boldsymbol{\Lambda}_{a,a} \mathbf{x}_a
+ \mathbf{x}_a^{\top} \boldsymbol{\Lambda}_{a,a} \boldsymbol{\mu}_a
- \frac{1}{2}
\boldsymbol{\mu}_a^{\top} \boldsymbol{\Lambda}_{a,a} \boldsymbol{\mu}_a \\
&\quad
- \mathbf{x}_b^{\top} \boldsymbol{\Lambda}_{b,a} \mathbf{x}_a
+ \mathbf{x}_b^{\top} \boldsymbol{\Lambda}_{b,a} \boldsymbol{\mu}_a
+ \mathbf{x}_a^{\top} \boldsymbol{\Lambda}_{b,a} \boldsymbol{\mu}_b
- \boldsymbol{\mu}_b^{\top} \boldsymbol{\Lambda}_{b,a} \boldsymbol{\mu}_a \\
&\quad
- \frac{1}{2}
\mathbf{x}_b^{\top} \boldsymbol{\Lambda}_{b,b} \mathbf{x}_b
+ \mathbf{x}_b^{\top} \boldsymbol{\Lambda}_{b,b} \boldsymbol{\mu}_b
- \frac{1}{2}
\boldsymbol{\mu}_b^{\top} \boldsymbol{\Lambda}_{b,b} \boldsymbol{\mu}_b
\tag{3}
\end{align}
$$
まずは、この式の$\mathbf{x}_b$に注目して積分します。その後に、$\mathbf{x}_a$について整理して周辺分布を導出します。
・変数の積分消去
二次形式を展開した式(3)の$\mathbf{x}_b$を積分をします。
$\mathbf{x}_b$の積分を考えるため、式(3)から$\mathbf{x}_b$に関係する項を取り出します。
$$
\begin{align}
& - \frac{1}{2}
\mathbf{x}_b^{\top} \boldsymbol{\Lambda}_{b,b} \mathbf{x}_b
+ \mathbf{x}_b^{\top} \boldsymbol{\Lambda}_{b,b} \boldsymbol{\mu}_b
- \mathbf{x}_b^{\top} \boldsymbol{\Lambda}_{b,a} \mathbf{x}_a
- \mathbf{x}_b^{\top} \boldsymbol{\Lambda}_{b,a} \boldsymbol{\mu}_a
\\
&= - \frac{1}{2}
\mathbf{x}_b^{\top} \boldsymbol{\Lambda}_{b,b} \mathbf{x}_b
+ \mathbf{x}_b^{\top} \Bigl\{
\boldsymbol{\Lambda}_{b,b} \boldsymbol{\mu}_b
- \boldsymbol{\Lambda}_{b,a}
(\mathbf{x}_a - \boldsymbol{\mu}_a)
\Bigr\}
\\
&= - \frac{1}{2}
\mathbf{x}_b^{\top} \boldsymbol{\Lambda}_{b,b} \mathbf{x}_b
+ \mathbf{x}_b^{\top} \mathbf{m}
\tag{b}
\end{align}
$$
$\mathbf{x}_b$の2次の項と1次の項にまとめて、波括弧(1次の項の係数)を$\mathbf{m}$とおきました。
$$
\mathbf{m}
= \boldsymbol{\Lambda}_{b,b} \boldsymbol{\mu}_b
- \boldsymbol{\Lambda}_{b,a}
(\mathbf{x}_a - \boldsymbol{\mu}_a)
\tag{2.85}
$$
式(b)に、$\mathbf{I} = \boldsymbol{\Lambda}_{b,b} \boldsymbol{\Lambda}_{b,b}^{-1}$を掛け、$0 = - \frac{1}{2} \mathbf{m}^{\top} \boldsymbol{\Lambda}_{b,b}^{-1} \mathbf{m} + \frac{1}{2} \mathbf{m}^{\top} \boldsymbol{\Lambda}_{b,b}^{-1} \mathbf{m}$を加えて平方完成します。
$$
\begin{align}
- \frac{1}{2}
\mathbf{x}_b^{\top} \boldsymbol{\Lambda}_{b,b} \mathbf{x}_b
+ \mathbf{x}_b^{\top} \mathbf{m}
&= - \frac{1}{2}
\mathbf{x}_b^{\top} \boldsymbol{\Lambda}_{b,b} \mathbf{x}_b
+ \mathbf{x}_b^{\top} \boldsymbol{\Lambda}_{b,b} \boldsymbol{\Lambda}_{b,b}^{-1} \mathbf{m}
- \frac{1}{2}
\mathbf{m}^{\top} \boldsymbol{\Lambda}_{b,b}^{-1} \mathbf{m}
+ \frac{1}{2}
\mathbf{m}^{\top} \boldsymbol{\Lambda}_{b,b}^{-1} \mathbf{m}
\\
&= - \frac{1}{2} \Bigl\{
\mathbf{x}_b^{\top} \boldsymbol{\Lambda}_{b,b} \mathbf{x}_b
- \mathbf{x}_b^{\top} \boldsymbol{\Lambda}_{b,b} \boldsymbol{\Lambda}_{b,b}^{-1} \mathbf{m}
- \mathbf{m}^{\top} \boldsymbol{\Lambda}_{b,b}^{-1} \boldsymbol{\Lambda}_{b,b} \mathbf{x}_b
+ \mathbf{m}^{\top} \boldsymbol{\Lambda}_{b,b}^{-1} \mathbf{m}
\Bigr\}
+ \frac{1}{2}
\mathbf{m}^{\top} \boldsymbol{\Lambda}_{b,b}^{-1} \mathbf{m}
\\
&= - \frac{1}{2}
(\mathbf{x}_b - \boldsymbol{\Lambda}_{b,b}^{-1} \mathbf{m})^{\top}
\boldsymbol{\Lambda}_{b,b}
(\mathbf{x}_b - \boldsymbol{\Lambda}_{b,b}^{-1} \mathbf{m})
+ \frac{1}{2}
\mathbf{m}^{\top} \boldsymbol{\Lambda}_{b,b}^{-1} \mathbf{m}
\tag{b'}
\end{align}
$$
値に影響させずに不足する項を加えることで、$\mathbf{x}_b$に関する二次形式に整理できました。
指数をとった$\mathbf{x}_b$の二次形式は正規化されていないガウス分布なので、積分すると正規化係数の逆数になります。
$$
\int
\exp \Bigl\{
- \frac{1}{2}
(\mathbf{x}_b - \boldsymbol{\Lambda}_{b,b}^{-1} \mathbf{m})^{\top}
\boldsymbol{\Lambda}_{b,b}
(\mathbf{x}_b - \boldsymbol{\Lambda}_{b,b}^{-1} \mathbf{m})
\Bigr\}
d\mathbf{x}_b
= \frac{
(2 \pi)^{\frac{D-M}{2}}
}{
|\boldsymbol{\Lambda}_{b,b}|^{\frac{1}{2}}
}
\tag{2.86}
$$
$\mathbf{x}_a$に影響しない定数になるのが分かりました。
・式の整理
$\mathbf{x}_b$を積分(周辺化)できたので、次は$\mathbf{x}_a$の周辺分布を考えます。
$\mathbf{x}_b$の式(b')において積分しなかった項を展開して、$\mathbf{x}_a$について整理します。
$$
\begin{aligned}
\frac{1}{2}
\mathbf{m}^{\top} \boldsymbol{\Lambda}_{b,b}^{-1} \mathbf{m}
&= \frac{1}{2}
\Bigl\{
\boldsymbol{\Lambda}_{b,b} \boldsymbol{\mu}_b
- \boldsymbol{\Lambda}_{b,a}
(\mathbf{x}_a - \boldsymbol{\mu}_a)
\Bigr\}^{\top}
\boldsymbol{\Lambda}_{b,b}^{-1}
\Bigl\{
\boldsymbol{\Lambda}_{b,b} \boldsymbol{\mu}_b
- \boldsymbol{\Lambda}_{b,a}
(\mathbf{x}_a - \boldsymbol{\mu}_a)
\Bigr\}
\\
&= \frac{1}{2} \Bigl[
(\boldsymbol{\Lambda}_{b,b} \boldsymbol{\mu}_b)^{\top}
\boldsymbol{\Lambda}_{b,b}^{-1}
(\boldsymbol{\Lambda}_{b,b} \boldsymbol{\mu}_b)
- (\boldsymbol{\Lambda}_{b,b} \boldsymbol{\mu}_b)^{\top}
\boldsymbol{\Lambda}_{b,b}^{-1}
\boldsymbol{\Lambda}_{b,a}
(\mathbf{x}_a - \boldsymbol{\mu}_a)
\Bigr. \\
&\qquad \Bigl.
- \Bigl\{
\boldsymbol{\Lambda}_{b,a}
(\mathbf{x}_a - \boldsymbol{\mu}_a)
\Bigr\}^{\top}
\boldsymbol{\Lambda}_{b,b}^{-1}
(\boldsymbol{\Lambda}_{b,b} \boldsymbol{\mu}_b)
+ \Bigl\{
\boldsymbol{\Lambda}_{b,a}
(\mathbf{x}_a - \boldsymbol{\mu}_a)
\Bigr\}^{\top}
\boldsymbol{\Lambda}_{b,b}^{-1}
\boldsymbol{\Lambda}_{b,a}
(\mathbf{x}_a - \boldsymbol{\mu}_a)
\Bigr]
\\
&= \frac{1}{2} \Bigl[
- \boldsymbol{\mu}_b^{\top}
\boldsymbol{\Lambda}_{b,a}
(\mathbf{x}_a - \boldsymbol{\mu}_a)
- (\mathbf{x}_a - \boldsymbol{\mu}_a)^{\top}
\boldsymbol{\Lambda}_{a,b} \boldsymbol{\mu}_b
+ (\mathbf{x}_a - \boldsymbol{\mu}_a)^{\top}
\boldsymbol{\Lambda}_{a,b} \boldsymbol{\Lambda}_{b,b}^{-1} \boldsymbol{\Lambda}_{b,a}
(\mathbf{x}_a - \boldsymbol{\mu}_a)
\Bigr]
+ \mathrm{const.}
\\
&= \frac{1}{2} \Bigl[
- \boldsymbol{\mu}_b^{\top} \boldsymbol{\Lambda}_{b,a} \mathbf{x}_a
+ \boldsymbol{\mu}_b^{\top} \boldsymbol{\Lambda}_{b,a} \boldsymbol{\mu}_a
- \mathbf{x}_a^{\top} \boldsymbol{\Lambda}_{a,b} \boldsymbol{\mu}_b
+ \boldsymbol{\mu}_a^{\top} \boldsymbol{\Lambda}_{a,b} \boldsymbol{\mu}_b
\Bigr. \\
&\qquad
+ \mathbf{x}_a^{\top}
\boldsymbol{\Lambda}_{a,b} \boldsymbol{\Lambda}_{b,b}^{-1} \boldsymbol{\Lambda}_{b,a}
\mathbf{x}_a
- \mathbf{x}_a^{\top}
\boldsymbol{\Lambda}_{a,b} \boldsymbol{\Lambda}_{b,b}^{-1} \boldsymbol{\Lambda}_{b,a}
\boldsymbol{\mu}_a
- \boldsymbol{\mu}_a^{\top}
\boldsymbol{\Lambda}_{a,b} \boldsymbol{\Lambda}_{b,b}^{-1} \boldsymbol{\Lambda}_{b,a}
\mathbf{x}_a
+ \boldsymbol{\mu}_a^{\top}
\boldsymbol{\Lambda}_{a,b} \boldsymbol{\Lambda}_{b,b}^{-1} \boldsymbol{\Lambda}_{b,a}
\boldsymbol{\mu}_a
\Bigr]
+ \mathrm{const.}
\\
&= - \mathbf{x}_a^{\top} \boldsymbol{\Lambda}_{a,b} \boldsymbol{\mu}_b
+ \frac{1}{2}
\mathbf{x}_a^{\top}
\boldsymbol{\Lambda}_{a,b} \boldsymbol{\Lambda}_{b,b}^{-1} \boldsymbol{\Lambda}_{b,a}
\mathbf{x}_a
- \mathbf{x}_a^{\top}
\boldsymbol{\Lambda}_{a,b} \boldsymbol{\Lambda}_{b,b}^{-1} \boldsymbol{\Lambda}_{b,a}
\boldsymbol{\mu}_a
+ \mathrm{const.}
\\
&= \frac{1}{2}
\mathbf{x}_a^{\top}
\boldsymbol{\Lambda}_{a,b} \boldsymbol{\Lambda}_{b,b}^{-1} \boldsymbol{\Lambda}_{b,a}
\mathbf{x}_a
- \mathbf{x}_a^{\top} \Bigl(
\boldsymbol{\Lambda}_{a,b} \boldsymbol{\mu}_b
+ \boldsymbol{\Lambda}_{a,b} \boldsymbol{\Lambda}_{b,b}^{-1} \boldsymbol{\Lambda}_{b,a}
\boldsymbol{\mu}_a
\Bigr)
+ \mathrm{const.}
\end{aligned}
$$
式(2.85)を代入して、$\mathbf{x}_a$と無関係な項を$\mathrm{const.}$とおきました。
この式と、式(b)に含めなかった式(3)の項($\mathbf{x}_b$と無関係な項)を、$\mathbf{x}_a$について整理します。
$$
\begin{align}
&\frac{1}{2}
\mathbf{m}^{\top} \boldsymbol{\Lambda}_{b,b}^{-1} \mathbf{m}
- \frac{1}{2}
\mathbf{x}_a^{\top} \boldsymbol{\Lambda}_{a,a} \mathbf{x}_a
+ \mathbf{x}_a^{\top} \boldsymbol{\Lambda}_{a,a} \boldsymbol{\mu}_a
+ \boldsymbol{\mu}_b^{\top} \boldsymbol{\Lambda}_{b,a} \mathbf{x}_a
+ \mathrm{const.}
\\
&= \frac{1}{2}
\mathbf{x}_a^{\top}
\boldsymbol{\Lambda}_{a,b} \boldsymbol{\Lambda}_{b,b}^{-1} \boldsymbol{\Lambda}_{b,a}
\mathbf{x}_a
- \mathbf{x}_a^{\top} \Bigl(
\boldsymbol{\Lambda}_{a,b} \boldsymbol{\mu}_b
+ \boldsymbol{\Lambda}_{a,b} \boldsymbol{\Lambda}_{b,b}^{-1} \boldsymbol{\Lambda}_{b,a}
\boldsymbol{\mu}_a
\Bigr) \\
&\quad
- \frac{1}{2}
\mathbf{x}_a^{\top} \boldsymbol{\Lambda}_{a,a} \mathbf{x}_a
+ \mathbf{x}_a^{\top} \Bigl(
\boldsymbol{\Lambda}_{a,a} \boldsymbol{\mu}_a
+ \boldsymbol{\Lambda}_{a,b} \boldsymbol{\mu}_b
\Bigr)
+ \mathrm{const.}
\\
&= - \frac{1}{2}
\mathbf{x}_a^{\top} \Bigl(
\boldsymbol{\Lambda}_{a,a}
- \boldsymbol{\Lambda}_{a,b} \boldsymbol{\Lambda}_{b,b}^{-1} \boldsymbol{\Lambda}_{b,a}
\Bigr)
\mathbf{x}_a
- \mathbf{x}_a^{\top} \Bigl(
\boldsymbol{\Lambda}_{a,a}
- \boldsymbol{\Lambda}_{a,b} \boldsymbol{\Lambda}_{b,b}^{-1} \boldsymbol{\Lambda}_{b,a}
\Bigr)
\boldsymbol{\mu}_a
+ \mathrm{const.}
\tag{2.87}
\end{align}
$$
$\mathbf{x}_a$と無関係な項を$\mathrm{const.}$とおき、$\mathbf{x}_a$の2次の項と1次の項にまとめました。
二次形式(2.70)を$\mathbf{x}_b$に関して積分して$\mathbf{x}_a$の関数(2.87)として見ると、正規化項のないガウス分布になるのが分かります。
つまり、平均と共分散行列を求めることで、正規化係数が分かる(正規化できる)ので$\mathbf{x}_a$の分布が得られます。
・周辺分布のパラメータ
$\mathbf{x}_a$の周辺分布$p(\mathbf{x}_a)$のパラメータを求めます。
$\mathbf{x}_a$の周辺分布を、平均$\boldsymbol{\mu}_{(a)}$・分散共分散行列$\boldsymbol{\Sigma}_a$の$M$次元ガウス分布とおきます。
$$
p(\mathbf{x}_a | \mathbf{x}_b)
= \frac{1}{(2 \pi)^{\frac{M}{2}}}
\frac{1}{|\boldsymbol{\Sigma}_a|^{\frac{1}{2}}}
\exp \left\{
- \frac{1}{2}
(\mathbf{x}_a - \boldsymbol{\mu}_{(a)})^{\top}
\boldsymbol{\Sigma}_a^{-1}
(\mathbf{x}_a - \boldsymbol{\mu}_{(a)})
\right\}
= \mathcal{N}(\mathbf{x}_a | \boldsymbol{\mu}_{(a)}, \boldsymbol{\Sigma}_a)
$$
この式の指数部分の二次形式を展開して、(式(2.71)と同様にして)$\mathbf{x}_a$について整理します。
$$
- \frac{1}{2}
(\mathbf{x}_a - \boldsymbol{\mu}_{(a)})^{\top}
\boldsymbol{\Sigma}_a^{-1}
(\mathbf{x} - \boldsymbol{\mu}_{(a)})
= - \frac{1}{2}
\mathbf{x}_a^{\top} \boldsymbol{\Sigma}_a^{-1} \mathbf{x}_a
- \mathbf{x}_a^{\top} \boldsymbol{\Sigma}_a^{-1} \boldsymbol{\mu}_{(a)}
+ \mathrm{const.}
\tag{4}
$$
式(2.87)と式(4)を比較すると同じ形をしています。そこで、$\mathbf{x}_a$の2次の項に注目すると、共分散行列が
$$
\begin{align}
\boldsymbol{\Sigma}_a^{-1}
&= \boldsymbol{\Lambda}_{a,a}
- \boldsymbol{\Lambda}_{a,b} \boldsymbol{\Lambda}_{b,b}^{-1} \boldsymbol{\Lambda}_{b,a}
\\
\Rightarrow
\boldsymbol{\Sigma}_a
&= (
\boldsymbol{\Lambda}_{a,a}
- \boldsymbol{\Lambda}_{a,b} \boldsymbol{\Lambda}_{b,b}^{-1} \boldsymbol{\Lambda}_{b,a}
)^{-1}
\tag{2.88}
\end{align}
$$
であるのが分かります。
また、$\mathbf{x}_a$の1次の項に注目すると
$$
\begin{aligned}
\boldsymbol{\Sigma}_a^{-1} \boldsymbol{\mu}_{(a)}
&= \Bigl(
\boldsymbol{\Lambda}_{a,a}
- \boldsymbol{\Lambda}_{a,b} \boldsymbol{\Lambda}_{b,b}^{-1} \boldsymbol{\Lambda}_{b,a}
\Bigr)
\boldsymbol{\mu}_a
\\
&= \boldsymbol{\Sigma}_a^{-1} \boldsymbol{\mu}_a
\end{aligned}
$$
なので、両辺に左から$\boldsymbol{\Sigma}_a$を掛けると、平均が
$$
\Rightarrow
\boldsymbol{\mu}_{(a)}
= \boldsymbol{\mu}_a
\tag{2.92}
$$
であるのが分かります。
$\mathbf{x}_a$の周辺分布のパラメータが得られました。
・精度行列と共分散行列の関係
$\mathbf{x}_a$の周辺分布のパラメータを、精度行列を使った式として求められました。続いて、共分散行列を使った式を求めます。
分割された行列の逆行列には、次の公式が成り立ちます。
$$
\begin{pmatrix}
\mathbf{A} & \mathbf{B} \\
\mathbf{C} & \mathbf{D}
\end{pmatrix}^{-1}
= \begin{pmatrix}
\mathbf{M} & - \mathbf{M} \mathbf{B} \mathbf{D}^{-1} \\
- \mathbf{D}^{-1} \mathbf{C} \mathbf{M} & \mathbf{D}^{-1} + \mathbf{D}^{-1} \mathbf{C} \mathbf{M} \mathbf{B} \mathbf{D}^{-1}
\end{pmatrix}
\tag{2.76}
$$
ただし
$$
\mathbf{M}
= (\mathbf{A} - \mathbf{B} \mathbf{D}^{-1} \mathbf{C})^{-1}
\tag{2.77}
$$
です。
この公式を分割した精度行列と共分散行列の定義式に当てはめると
$$
\begin{pmatrix}
\boldsymbol{\Lambda}_{a,a} & \boldsymbol{\Lambda}_{a,b} \\
\boldsymbol{\Lambda}_{b,a} & \boldsymbol{\Lambda}_{b,b}
\end{pmatrix}^{-1}
= \begin{pmatrix}
\mathbf{M} & - \mathbf{M} \boldsymbol{\Lambda}_{a,b} \boldsymbol{\Lambda}_{b,b}^{-1} \\
- \boldsymbol{\Lambda}_{b,b}^{-1} \boldsymbol{\Lambda}_{b,a} \mathbf{M} & \boldsymbol{\Lambda}_{b,b}^{-1} + \boldsymbol{\Lambda}_{b,b}^{-1} \boldsymbol{\Lambda}_{b,a} \mathbf{M} \boldsymbol{\Lambda}_{a,b} \boldsymbol{\Lambda}_{b,b}^{-1}
\end{pmatrix}
= \begin{pmatrix}
\boldsymbol{\Sigma}_{a,a} & \boldsymbol{\Sigma}_{a,b} \\
\boldsymbol{\Sigma}_{b,a} & \boldsymbol{\Sigma}_{b,b}
\end{pmatrix}
\tag{2.78}
$$
が成り立ちます。ただし
$$
\mathbf{M}
= (\boldsymbol{\Lambda}_{a,a} - \boldsymbol{\Lambda}_{a,b} \boldsymbol{\Lambda}_{b,b}^{-1} \boldsymbol{\Lambda}_{b,a})^{-1}
$$
です。
よって、対応する要素を比較すると
$$
\boldsymbol{\Sigma}_{a,a}
= (
\boldsymbol{\Lambda}_{a,a}
- \boldsymbol{\Lambda}_{a,b} \boldsymbol{\Lambda}_{b,b}^{-1} \boldsymbol{\Lambda}_{b,a}
)^{-1}
\tag{2.91}
$$
となります。
式(2.91)を式(2.88)に代入すると
$$
\begin{align}
\boldsymbol{\Sigma}_a
&= \Bigl(
\boldsymbol{\Lambda}_{a,a}
- \boldsymbol{\Lambda}_{a,b} \boldsymbol{\Lambda}_{b,b}^{-1} \boldsymbol{\Lambda}_{b,a}
\Bigr)^{-1}
\tag{2.88}\\
&= \boldsymbol{\Sigma}_{a,a}
\tag{2.93}
\end{align}
$$
であるのが分かります。
・まとめ
以上で、$\mathbf{x}_a$の周辺分布は、平均$\boldsymbol{\mu}_a$・分散共分散行列$\boldsymbol{\Sigma}_{a,a}$の$M$次元ガウス分布
$$
p(\mathbf{x}_a)
= \int
p(\mathbf{x}_a, \mathbf{x}_b)
d\mathbf{x}_b
= \mathcal{N}(\mathbf{x}_a | \boldsymbol{\mu}_a, \boldsymbol{\Sigma}_{a,a})
$$
となることが分かりました。分散共分散行列パラメータは
$$
\boldsymbol{\Sigma}_{a,a}
= \Bigl(
\boldsymbol{\Lambda}_{a,a}
- \boldsymbol{\Lambda}_{a,b} \boldsymbol{\Lambda}_{b,b}^{-1} \boldsymbol{\Lambda}_{b,a}
\Bigr)^{-1}
$$
でも計算できます。
参考文献
- C.M.ビショップ著,元田 浩・他訳『パターン認識と機械学習 上下』,丸善出版,2012年.
おわりに
これ本当にベイズロジスティック回帰で使うのか?というのはいいとして、これだけ似たような文字がごちゃごちゃしてたら読んでもよく分からなそう。書くのは大変だった。
【次節の内容】
ガウス分布のベイズ推論であればこちらでやりました。
www.anarchive-beta.com