からっぽのしょこ

読んだら書く!書いたら読む!同じ事は二度調べ(たく)ない

2.3.2:周辺ガウス分布の導出【PRMLのノート】

はじめに

 『パターン認識と機械学習』の独学時のまとめです。一連の記事は「数式の行間埋め」または「R・Pythonでのスクラッチ実装」からアルゴリズムの理解を補助することを目的としています。本とあわせて読んでください。

 この記事は、2.3.2項の内容です。多変量正規分布から周辺分布を導出します。

【実装編】

www.anarchive-beta.com

【前節の内容】

www.anarchive-beta.com

【他の節一覧】

www.anarchive-beta.com

【この節の内容】

2.3.2 周辺ガウス分布

 2つの変数$\mathbf{x}_a, \mathbf{x}_b$の同時分布$p(\mathbf{x}_a, \mathbf{x}_b)$がガウス分布の場合、一方の変数を周辺化(積分)した分布$p(\mathbf{x}_a)$もガウス分布になることを確認します。分割した変数とパラメータについては「2.3.1:条件付きガウス分布の導出【PRMLのノート】 - からっぽのしょこ」を参照してください。

 $\mathbf{x}_b$を周辺化(積分消去)した$\mathbf{x}_a$の周辺分布

$$ p(\mathbf{x}_a) = \int p(\mathbf{x}_a, \mathbf{x}_b) d\mathbf{x}_b = \frac{1}{(2 \pi)^{\frac{D}{2}}} \frac{1}{|\boldsymbol{\Sigma}|^{\frac{1}{2}}} \int \exp \left\{ - \frac{1}{2} (\mathbf{x} - \boldsymbol{\mu})^{\top} \boldsymbol{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu}) \right\} d\mathbf{x}_b \tag{2.83} $$

を考えます。

・二次形式の展開

 $\mathbf{x}$の分布(2.43)の指数部分の二次形式を、分割した変数とパラメータを用いて展開すると式(2.70)になるのでした。それを更に展開します。

$$ \begin{align} - \frac{1}{2} (\mathbf{x} - \boldsymbol{\mu})^{\top} \boldsymbol{\Sigma}^{-1} (\mathbf{x} - \boldsymbol{\mu}) &= - \frac{1}{2} (\mathbf{x}_a - \boldsymbol{\mu}_a)^{\top} \boldsymbol{\Lambda}_{a,a} (\mathbf{x}_a - \boldsymbol{\mu}_a) - \frac{1}{2} (\mathbf{x}_b - \boldsymbol{\mu}_b)^{\top} \boldsymbol{\Lambda}_{b,a} (\mathbf{x}_a - \boldsymbol{\mu}_a) \Bigr. \\ &\quad \Bigl. - \frac{1}{2} (\mathbf{x}_a - \boldsymbol{\mu}_a)^{\top} \boldsymbol{\Lambda}_{a,b} (\mathbf{x}_b - \boldsymbol{\mu}_b) - \frac{1}{2} (\mathbf{x}_b - \boldsymbol{\mu}_b)^{\top} \boldsymbol{\Lambda}_{b,b} (\mathbf{x}_b - \boldsymbol{\mu}_b) \tag{2.70}\\ &= - \frac{1}{2} \Bigl( \mathbf{x}_a^{\top} \boldsymbol{\Lambda}_{a,a} \mathbf{x}_a - \mathbf{x}_a^{\top} \boldsymbol{\Lambda}_{a,a} \boldsymbol{\mu}_a - \boldsymbol{\mu}_a^{\top} \boldsymbol{\Lambda}_{a,a} \mathbf{x}_a + \boldsymbol{\mu}_a^{\top} \boldsymbol{\Lambda}_{a,a} \boldsymbol{\mu}_a \Bigr) \\ &\quad - \frac{1}{2} \Bigl( \mathbf{x}_b^{\top} \boldsymbol{\Lambda}_{b,a} \mathbf{x}_a - \mathbf{x}_b^{\top} \boldsymbol{\Lambda}_{b,a} \boldsymbol{\mu}_a - \boldsymbol{\mu}_b^{\top} \boldsymbol{\Lambda}_{b,a} \mathbf{x}_a + \boldsymbol{\mu}_b^{\top} \boldsymbol{\Lambda}_{b,a} \boldsymbol{\mu}_a \Bigr) \\ &\quad - \frac{1}{2} \Bigl( \mathbf{x}_a^{\top} \boldsymbol{\Lambda}_{a,b} \mathbf{x}_b - \mathbf{x}_a^{\top} \boldsymbol{\Lambda}_{a,b} \boldsymbol{\mu}_b - \boldsymbol{\mu}_a^{\top} \boldsymbol{\Lambda}_{a,b} \mathbf{x}_b + \boldsymbol{\mu}_a^{\top} \boldsymbol{\Lambda}_{a,b} \boldsymbol{\mu}_b \Bigr) \\ &\quad - \frac{1}{2} \Bigl( \mathbf{x}_b^{\top} \boldsymbol{\Lambda}_{b,b} \mathbf{x}_b - \mathbf{x}_b^{\top} \boldsymbol{\Lambda}_{b,b} \boldsymbol{\mu}_b - \boldsymbol{\mu}_b^{\top} \boldsymbol{\Lambda}_{b,b} \mathbf{x}_b + \boldsymbol{\mu}_b^{\top} \boldsymbol{\Lambda}_{b,b} \boldsymbol{\mu}_b \Bigr) \\ &= - \frac{1}{2} \mathbf{x}_a^{\top} \boldsymbol{\Lambda}_{a,a} \mathbf{x}_a + \mathbf{x}_a^{\top} \boldsymbol{\Lambda}_{a,a} \boldsymbol{\mu}_a - \frac{1}{2} \boldsymbol{\mu}_a^{\top} \boldsymbol{\Lambda}_{a,a} \boldsymbol{\mu}_a \\ &\quad - \mathbf{x}_b^{\top} \boldsymbol{\Lambda}_{b,a} \mathbf{x}_a + \mathbf{x}_b^{\top} \boldsymbol{\Lambda}_{b,a} \boldsymbol{\mu}_a + \mathbf{x}_a^{\top} \boldsymbol{\Lambda}_{b,a} \boldsymbol{\mu}_b - \boldsymbol{\mu}_b^{\top} \boldsymbol{\Lambda}_{b,a} \boldsymbol{\mu}_a \\ &\quad - \frac{1}{2} \mathbf{x}_b^{\top} \boldsymbol{\Lambda}_{b,b} \mathbf{x}_b + \mathbf{x}_b^{\top} \boldsymbol{\Lambda}_{b,b} \boldsymbol{\mu}_b - \frac{1}{2} \boldsymbol{\mu}_b^{\top} \boldsymbol{\Lambda}_{b,b} \boldsymbol{\mu}_b \tag{3} \end{align} $$

 まずは、この式の$\mathbf{x}_b$に注目して積分します。その後に、$\mathbf{x}_a$について整理して周辺分布を導出します。

・変数の積分消去

 二次形式を展開した式(3)の$\mathbf{x}_b$を積分をします。

 $\mathbf{x}_b$の積分を考えるため、式(3)から$\mathbf{x}_b$に関係する項を取り出します。

$$ \begin{align} & - \frac{1}{2} \mathbf{x}_b^{\top} \boldsymbol{\Lambda}_{b,b} \mathbf{x}_b + \mathbf{x}_b^{\top} \boldsymbol{\Lambda}_{b,b} \boldsymbol{\mu}_b - \mathbf{x}_b^{\top} \boldsymbol{\Lambda}_{b,a} \mathbf{x}_a - \mathbf{x}_b^{\top} \boldsymbol{\Lambda}_{b,a} \boldsymbol{\mu}_a \\ &= - \frac{1}{2} \mathbf{x}_b^{\top} \boldsymbol{\Lambda}_{b,b} \mathbf{x}_b + \mathbf{x}_b^{\top} \Bigl\{ \boldsymbol{\Lambda}_{b,b} \boldsymbol{\mu}_b - \boldsymbol{\Lambda}_{b,a} (\mathbf{x}_a - \boldsymbol{\mu}_a) \Bigr\} \\ &= - \frac{1}{2} \mathbf{x}_b^{\top} \boldsymbol{\Lambda}_{b,b} \mathbf{x}_b + \mathbf{x}_b^{\top} \mathbf{m} \tag{b} \end{align} $$

 $\mathbf{x}_b$の2次の項と1次の項にまとめて、波括弧(1次の項の係数)を$\mathbf{m}$とおきました。

$$ \mathbf{m} = \boldsymbol{\Lambda}_{b,b} \boldsymbol{\mu}_b - \boldsymbol{\Lambda}_{b,a} (\mathbf{x}_a - \boldsymbol{\mu}_a) \tag{2.85} $$

 式(b)に、$\mathbf{I} = \boldsymbol{\Lambda}_{b,b} \boldsymbol{\Lambda}_{b,b}^{-1}$を掛け、$0 = - \frac{1}{2} \mathbf{m}^{\top} \boldsymbol{\Lambda}_{b,b}^{-1} \mathbf{m} + \frac{1}{2} \mathbf{m}^{\top} \boldsymbol{\Lambda}_{b,b}^{-1} \mathbf{m}$を加えて平方完成します。

$$ \begin{align} - \frac{1}{2} \mathbf{x}_b^{\top} \boldsymbol{\Lambda}_{b,b} \mathbf{x}_b + \mathbf{x}_b^{\top} \mathbf{m} &= - \frac{1}{2} \mathbf{x}_b^{\top} \boldsymbol{\Lambda}_{b,b} \mathbf{x}_b + \mathbf{x}_b^{\top} \boldsymbol{\Lambda}_{b,b} \boldsymbol{\Lambda}_{b,b}^{-1} \mathbf{m} - \frac{1}{2} \mathbf{m}^{\top} \boldsymbol{\Lambda}_{b,b}^{-1} \mathbf{m} + \frac{1}{2} \mathbf{m}^{\top} \boldsymbol{\Lambda}_{b,b}^{-1} \mathbf{m} \\ &= - \frac{1}{2} \Bigl\{ \mathbf{x}_b^{\top} \boldsymbol{\Lambda}_{b,b} \mathbf{x}_b - \mathbf{x}_b^{\top} \boldsymbol{\Lambda}_{b,b} \boldsymbol{\Lambda}_{b,b}^{-1} \mathbf{m} - \mathbf{m}^{\top} \boldsymbol{\Lambda}_{b,b}^{-1} \boldsymbol{\Lambda}_{b,b} \mathbf{x}_b + \mathbf{m}^{\top} \boldsymbol{\Lambda}_{b,b}^{-1} \mathbf{m} \Bigr\} + \frac{1}{2} \mathbf{m}^{\top} \boldsymbol{\Lambda}_{b,b}^{-1} \mathbf{m} \\ &= - \frac{1}{2} (\mathbf{x}_b - \boldsymbol{\Lambda}_{b,b}^{-1} \mathbf{m})^{\top} \boldsymbol{\Lambda}_{b,b} (\mathbf{x}_b - \boldsymbol{\Lambda}_{b,b}^{-1} \mathbf{m}) + \frac{1}{2} \mathbf{m}^{\top} \boldsymbol{\Lambda}_{b,b}^{-1} \mathbf{m} \tag{b'} \end{align} $$

 値に影響させずに不足する項を加えることで、$\mathbf{x}_b$に関する二次形式に整理できました。

 指数をとった$\mathbf{x}_b$の二次形式は正規化されていないガウス分布なので、積分すると正規化係数の逆数になります。

$$ \int \exp \Bigl\{ - \frac{1}{2} (\mathbf{x}_b - \boldsymbol{\Lambda}_{b,b}^{-1} \mathbf{m})^{\top} \boldsymbol{\Lambda}_{b,b} (\mathbf{x}_b - \boldsymbol{\Lambda}_{b,b}^{-1} \mathbf{m}) \Bigr\} d\mathbf{x}_b = \frac{ (2 \pi)^{\frac{D-M}{2}} }{ |\boldsymbol{\Lambda}_{b,b}|^{\frac{1}{2}} } \tag{2.86} $$

 $\mathbf{x}_a$に影響しない定数になるのが分かりました。

・式の整理

 $\mathbf{x}_b$を積分(周辺化)できたので、次は$\mathbf{x}_a$の周辺分布を考えます。

 $\mathbf{x}_b$の式(b')において積分しなかった項を展開して、$\mathbf{x}_a$について整理します。

$$ \begin{aligned} \frac{1}{2} \mathbf{m}^{\top} \boldsymbol{\Lambda}_{b,b}^{-1} \mathbf{m} &= \frac{1}{2} \Bigl\{ \boldsymbol{\Lambda}_{b,b} \boldsymbol{\mu}_b - \boldsymbol{\Lambda}_{b,a} (\mathbf{x}_a - \boldsymbol{\mu}_a) \Bigr\}^{\top} \boldsymbol{\Lambda}_{b,b}^{-1} \Bigl\{ \boldsymbol{\Lambda}_{b,b} \boldsymbol{\mu}_b - \boldsymbol{\Lambda}_{b,a} (\mathbf{x}_a - \boldsymbol{\mu}_a) \Bigr\} \\ &= \frac{1}{2} \Bigl[ (\boldsymbol{\Lambda}_{b,b} \boldsymbol{\mu}_b)^{\top} \boldsymbol{\Lambda}_{b,b}^{-1} (\boldsymbol{\Lambda}_{b,b} \boldsymbol{\mu}_b) - (\boldsymbol{\Lambda}_{b,b} \boldsymbol{\mu}_b)^{\top} \boldsymbol{\Lambda}_{b,b}^{-1} \boldsymbol{\Lambda}_{b,a} (\mathbf{x}_a - \boldsymbol{\mu}_a) \Bigr. \\ &\qquad \Bigl. - \Bigl\{ \boldsymbol{\Lambda}_{b,a} (\mathbf{x}_a - \boldsymbol{\mu}_a) \Bigr\}^{\top} \boldsymbol{\Lambda}_{b,b}^{-1} (\boldsymbol{\Lambda}_{b,b} \boldsymbol{\mu}_b) + \Bigl\{ \boldsymbol{\Lambda}_{b,a} (\mathbf{x}_a - \boldsymbol{\mu}_a) \Bigr\}^{\top} \boldsymbol{\Lambda}_{b,b}^{-1} \boldsymbol{\Lambda}_{b,a} (\mathbf{x}_a - \boldsymbol{\mu}_a) \Bigr] \\ &= \frac{1}{2} \Bigl[ - \boldsymbol{\mu}_b^{\top} \boldsymbol{\Lambda}_{b,a} (\mathbf{x}_a - \boldsymbol{\mu}_a) - (\mathbf{x}_a - \boldsymbol{\mu}_a)^{\top} \boldsymbol{\Lambda}_{a,b} \boldsymbol{\mu}_b + (\mathbf{x}_a - \boldsymbol{\mu}_a)^{\top} \boldsymbol{\Lambda}_{a,b} \boldsymbol{\Lambda}_{b,b}^{-1} \boldsymbol{\Lambda}_{b,a} (\mathbf{x}_a - \boldsymbol{\mu}_a) \Bigr] + \mathrm{const.} \\ &= \frac{1}{2} \Bigl[ - \boldsymbol{\mu}_b^{\top} \boldsymbol{\Lambda}_{b,a} \mathbf{x}_a + \boldsymbol{\mu}_b^{\top} \boldsymbol{\Lambda}_{b,a} \boldsymbol{\mu}_a - \mathbf{x}_a^{\top} \boldsymbol{\Lambda}_{a,b} \boldsymbol{\mu}_b + \boldsymbol{\mu}_a^{\top} \boldsymbol{\Lambda}_{a,b} \boldsymbol{\mu}_b \Bigr. \\ &\qquad + \mathbf{x}_a^{\top} \boldsymbol{\Lambda}_{a,b} \boldsymbol{\Lambda}_{b,b}^{-1} \boldsymbol{\Lambda}_{b,a} \mathbf{x}_a - \mathbf{x}_a^{\top} \boldsymbol{\Lambda}_{a,b} \boldsymbol{\Lambda}_{b,b}^{-1} \boldsymbol{\Lambda}_{b,a} \boldsymbol{\mu}_a - \boldsymbol{\mu}_a^{\top} \boldsymbol{\Lambda}_{a,b} \boldsymbol{\Lambda}_{b,b}^{-1} \boldsymbol{\Lambda}_{b,a} \mathbf{x}_a + \boldsymbol{\mu}_a^{\top} \boldsymbol{\Lambda}_{a,b} \boldsymbol{\Lambda}_{b,b}^{-1} \boldsymbol{\Lambda}_{b,a} \boldsymbol{\mu}_a \Bigr] + \mathrm{const.} \\ &= - \mathbf{x}_a^{\top} \boldsymbol{\Lambda}_{a,b} \boldsymbol{\mu}_b + \frac{1}{2} \mathbf{x}_a^{\top} \boldsymbol{\Lambda}_{a,b} \boldsymbol{\Lambda}_{b,b}^{-1} \boldsymbol{\Lambda}_{b,a} \mathbf{x}_a - \mathbf{x}_a^{\top} \boldsymbol{\Lambda}_{a,b} \boldsymbol{\Lambda}_{b,b}^{-1} \boldsymbol{\Lambda}_{b,a} \boldsymbol{\mu}_a + \mathrm{const.} \\ &= \frac{1}{2} \mathbf{x}_a^{\top} \boldsymbol{\Lambda}_{a,b} \boldsymbol{\Lambda}_{b,b}^{-1} \boldsymbol{\Lambda}_{b,a} \mathbf{x}_a - \mathbf{x}_a^{\top} \Bigl( \boldsymbol{\Lambda}_{a,b} \boldsymbol{\mu}_b + \boldsymbol{\Lambda}_{a,b} \boldsymbol{\Lambda}_{b,b}^{-1} \boldsymbol{\Lambda}_{b,a} \boldsymbol{\mu}_a \Bigr) + \mathrm{const.} \end{aligned} $$

 式(2.85)を代入して、$\mathbf{x}_a$と無関係な項を$\mathrm{const.}$とおきました。
 この式と、式(b)に含めなかった式(3)の項($\mathbf{x}_b$と無関係な項)を、$\mathbf{x}_a$について整理します。

$$ \begin{align} &\frac{1}{2} \mathbf{m}^{\top} \boldsymbol{\Lambda}_{b,b}^{-1} \mathbf{m} - \frac{1}{2} \mathbf{x}_a^{\top} \boldsymbol{\Lambda}_{a,a} \mathbf{x}_a + \mathbf{x}_a^{\top} \boldsymbol{\Lambda}_{a,a} \boldsymbol{\mu}_a + \boldsymbol{\mu}_b^{\top} \boldsymbol{\Lambda}_{b,a} \mathbf{x}_a + \mathrm{const.} \\ &= \frac{1}{2} \mathbf{x}_a^{\top} \boldsymbol{\Lambda}_{a,b} \boldsymbol{\Lambda}_{b,b}^{-1} \boldsymbol{\Lambda}_{b,a} \mathbf{x}_a - \mathbf{x}_a^{\top} \Bigl( \boldsymbol{\Lambda}_{a,b} \boldsymbol{\mu}_b + \boldsymbol{\Lambda}_{a,b} \boldsymbol{\Lambda}_{b,b}^{-1} \boldsymbol{\Lambda}_{b,a} \boldsymbol{\mu}_a \Bigr) \\ &\quad - \frac{1}{2} \mathbf{x}_a^{\top} \boldsymbol{\Lambda}_{a,a} \mathbf{x}_a + \mathbf{x}_a^{\top} \Bigl( \boldsymbol{\Lambda}_{a,a} \boldsymbol{\mu}_a + \boldsymbol{\Lambda}_{a,b} \boldsymbol{\mu}_b \Bigr) + \mathrm{const.} \\ &= - \frac{1}{2} \mathbf{x}_a^{\top} \Bigl( \boldsymbol{\Lambda}_{a,a} - \boldsymbol{\Lambda}_{a,b} \boldsymbol{\Lambda}_{b,b}^{-1} \boldsymbol{\Lambda}_{b,a} \Bigr) \mathbf{x}_a - \mathbf{x}_a^{\top} \Bigl( \boldsymbol{\Lambda}_{a,a} - \boldsymbol{\Lambda}_{a,b} \boldsymbol{\Lambda}_{b,b}^{-1} \boldsymbol{\Lambda}_{b,a} \Bigr) \boldsymbol{\mu}_a + \mathrm{const.} \tag{2.87} \end{align} $$

 $\mathbf{x}_a$と無関係な項を$\mathrm{const.}$とおき、$\mathbf{x}_a$の2次の項と1次の項にまとめました。

 二次形式(2.70)を$\mathbf{x}_b$に関して積分して$\mathbf{x}_a$の関数(2.87)として見ると、正規化項のないガウス分布になるのが分かります。
 つまり、平均と共分散行列を求めることで、正規化係数が分かる(正規化できる)ので$\mathbf{x}_a$の分布が得られます。

・周辺分布のパラメータ

 $\mathbf{x}_a$の周辺分布$p(\mathbf{x}_a)$のパラメータを求めます。

 $\mathbf{x}_a$の周辺分布を、平均$\boldsymbol{\mu}_{(a)}$・分散共分散行列$\boldsymbol{\Sigma}_a$の$M$次元ガウス分布とおきます。

$$ p(\mathbf{x}_a | \mathbf{x}_b) = \frac{1}{(2 \pi)^{\frac{M}{2}}} \frac{1}{|\boldsymbol{\Sigma}_a|^{\frac{1}{2}}} \exp \left\{ - \frac{1}{2} (\mathbf{x}_a - \boldsymbol{\mu}_{(a)})^{\top} \boldsymbol{\Sigma}_a^{-1} (\mathbf{x}_a - \boldsymbol{\mu}_{(a)}) \right\} = \mathcal{N}(\mathbf{x}_a | \boldsymbol{\mu}_{(a)}, \boldsymbol{\Sigma}_a) $$

 この式の指数部分の二次形式を展開して、(式(2.71)と同様にして)$\mathbf{x}_a$について整理します。

$$ - \frac{1}{2} (\mathbf{x}_a - \boldsymbol{\mu}_{(a)})^{\top} \boldsymbol{\Sigma}_a^{-1} (\mathbf{x} - \boldsymbol{\mu}_{(a)}) = - \frac{1}{2} \mathbf{x}_a^{\top} \boldsymbol{\Sigma}_a^{-1} \mathbf{x}_a - \mathbf{x}_a^{\top} \boldsymbol{\Sigma}_a^{-1} \boldsymbol{\mu}_{(a)} + \mathrm{const.} \tag{4} $$

 式(2.87)と式(4)を比較すると同じ形をしています。そこで、$\mathbf{x}_a$の2次の項に注目すると、共分散行列が

$$ \begin{align} \boldsymbol{\Sigma}_a^{-1} &= \boldsymbol{\Lambda}_{a,a} - \boldsymbol{\Lambda}_{a,b} \boldsymbol{\Lambda}_{b,b}^{-1} \boldsymbol{\Lambda}_{b,a} \\ \Rightarrow \boldsymbol{\Sigma}_a &= ( \boldsymbol{\Lambda}_{a,a} - \boldsymbol{\Lambda}_{a,b} \boldsymbol{\Lambda}_{b,b}^{-1} \boldsymbol{\Lambda}_{b,a} )^{-1} \tag{2.88} \end{align} $$

であるのが分かります。
 また、$\mathbf{x}_a$の1次の項に注目すると

$$ \begin{aligned} \boldsymbol{\Sigma}_a^{-1} \boldsymbol{\mu}_{(a)} &= \Bigl( \boldsymbol{\Lambda}_{a,a} - \boldsymbol{\Lambda}_{a,b} \boldsymbol{\Lambda}_{b,b}^{-1} \boldsymbol{\Lambda}_{b,a} \Bigr) \boldsymbol{\mu}_a \\ &= \boldsymbol{\Sigma}_a^{-1} \boldsymbol{\mu}_a \end{aligned} $$

なので、両辺に左から$\boldsymbol{\Sigma}_a$を掛けると、平均が

$$ \Rightarrow \boldsymbol{\mu}_{(a)} = \boldsymbol{\mu}_a \tag{2.92} $$

であるのが分かります。

 $\mathbf{x}_a$の周辺分布のパラメータが得られました。

・精度行列と共分散行列の関係

 $\mathbf{x}_a$の周辺分布のパラメータを、精度行列を使った式として求められました。続いて、共分散行列を使った式を求めます。

 分割された行列の逆行列には、次の公式が成り立ちます。

$$ \begin{pmatrix} \mathbf{A} & \mathbf{B} \\ \mathbf{C} & \mathbf{D} \end{pmatrix}^{-1} = \begin{pmatrix} \mathbf{M} & - \mathbf{M} \mathbf{B} \mathbf{D}^{-1} \\ - \mathbf{D}^{-1} \mathbf{C} \mathbf{M} & \mathbf{D}^{-1} + \mathbf{D}^{-1} \mathbf{C} \mathbf{M} \mathbf{B} \mathbf{D}^{-1} \end{pmatrix} \tag{2.76} $$

 ただし

$$ \mathbf{M} = (\mathbf{A} - \mathbf{B} \mathbf{D}^{-1} \mathbf{C})^{-1} \tag{2.77} $$

です。

 この公式を分割した精度行列と共分散行列の定義式に当てはめると

$$ \begin{pmatrix} \boldsymbol{\Lambda}_{a,a} & \boldsymbol{\Lambda}_{a,b} \\ \boldsymbol{\Lambda}_{b,a} & \boldsymbol{\Lambda}_{b,b} \end{pmatrix}^{-1} = \begin{pmatrix} \mathbf{M} & - \mathbf{M} \boldsymbol{\Lambda}_{a,b} \boldsymbol{\Lambda}_{b,b}^{-1} \\ - \boldsymbol{\Lambda}_{b,b}^{-1} \boldsymbol{\Lambda}_{b,a} \mathbf{M} & \boldsymbol{\Lambda}_{b,b}^{-1} + \boldsymbol{\Lambda}_{b,b}^{-1} \boldsymbol{\Lambda}_{b,a} \mathbf{M} \boldsymbol{\Lambda}_{a,b} \boldsymbol{\Lambda}_{b,b}^{-1} \end{pmatrix} = \begin{pmatrix} \boldsymbol{\Sigma}_{a,a} & \boldsymbol{\Sigma}_{a,b} \\ \boldsymbol{\Sigma}_{b,a} & \boldsymbol{\Sigma}_{b,b} \end{pmatrix} \tag{2.78} $$

が成り立ちます。ただし

$$ \mathbf{M} = (\boldsymbol{\Lambda}_{a,a} - \boldsymbol{\Lambda}_{a,b} \boldsymbol{\Lambda}_{b,b}^{-1} \boldsymbol{\Lambda}_{b,a})^{-1} $$

です。

 よって、対応する要素を比較すると

$$ \boldsymbol{\Sigma}_{a,a} = ( \boldsymbol{\Lambda}_{a,a} - \boldsymbol{\Lambda}_{a,b} \boldsymbol{\Lambda}_{b,b}^{-1} \boldsymbol{\Lambda}_{b,a} )^{-1} \tag{2.91} $$

となります。
 式(2.91)を式(2.88)に代入すると

$$ \begin{align} \boldsymbol{\Sigma}_a &= \Bigl( \boldsymbol{\Lambda}_{a,a} - \boldsymbol{\Lambda}_{a,b} \boldsymbol{\Lambda}_{b,b}^{-1} \boldsymbol{\Lambda}_{b,a} \Bigr)^{-1} \tag{2.88}\\ &= \boldsymbol{\Sigma}_{a,a} \tag{2.93} \end{align} $$

であるのが分かります。

・まとめ

 以上で、$\mathbf{x}_a$の周辺分布は、平均$\boldsymbol{\mu}_a$・分散共分散行列$\boldsymbol{\Sigma}_{a,a}$の$M$次元ガウス分布

$$ p(\mathbf{x}_a) = \int p(\mathbf{x}_a, \mathbf{x}_b) d\mathbf{x}_b = \mathcal{N}(\mathbf{x}_a | \boldsymbol{\mu}_a, \boldsymbol{\Sigma}_{a,a}) $$

となることが分かりました。分散共分散行列パラメータは

$$ \boldsymbol{\Sigma}_{a,a} = \Bigl( \boldsymbol{\Lambda}_{a,a} - \boldsymbol{\Lambda}_{a,b} \boldsymbol{\Lambda}_{b,b}^{-1} \boldsymbol{\Lambda}_{b,a} \Bigr)^{-1} $$

でも計算できます。

参考文献

  • C.M.ビショップ著,元田 浩・他訳『パターン認識と機械学習 上下』,丸善出版,2012年.

おわりに

 これ本当にベイズロジスティック回帰で使うのか?というのはいいとして、これだけ似たような文字がごちゃごちゃしてたら読んでもよく分からなそう。書くのは大変だった。

【次節の内容】

 ガウス分布のベイズ推論であればこちらでやりました。

www.anarchive-beta.com