はじめに
『ベイズ推論による機械学習入門』の学習時のノートです。基本的な内容は「数式の行間を読んでみた」とそれを「Rで組んでみた」になります。「数式」と「プログラム」から理解するのが目標です。
この記事は3.5節の内容です。事前分布に多次元ガウス分布(多変量正規分布)を仮定した線形回帰モデルの事後分布と予測分布を導出します。
省略してある内容等ありますので、本と併せて読んでください。初学者な自分が理解できるレベルまで落として書き下していますので、分かる人にはかなりくどくなっています。同じような立場の人のお役に立てれば幸いです。
【実装編】
www.anarchive-beta.com
【前節の内容】
www.anarchive-beta.com
【他の節一覧】
www.anarchive-beta.com
【この節の内容】
3.5.1 モデルの構築
入力値を$\mathbf{x}_n = \{x_{n1}, x_{n2}, \cdots, x_{nM}\}$、出力値を$y_n$、パラメータを$\mathbf{w} = (w_1, w_2, \cdots, w_M)$、ノイズ成分を$\epsilon_n$としたとき、線形回帰モデルは次のようになる。
$$
\begin{align}
y_n
&= \mathbf{w}^{\top}
\mathbf{x}_n
+ \epsilon_n
\tag{3.141}\\
&= w_1 x_{n1} + w_2 x_{n2} + \cdots + w_M x_{nM} + \epsilon_n
\end{align}
$$
ベクトルの計算を展開すると(また$\mathbf{w}$を$(\beta_0, \cdots, \beta_3)$に置き換えると)、重回帰式でよくみる形であることが分かる。
ノイズ成分$\epsilon_n$は、平均0、分散$\sigma^2 = \lambda^{-1}$のガウス分布に従うと仮定する。$\lambda$を精度と呼ぶ。
$$
\epsilon_n
\sim
\mathcal{N}(\epsilon_n | 0, \lambda^{-1})
\tag{3.142}
$$
この2つの式を用いて、出力値$y_n$を次のように確率分布として定式化できる。
$$
p(y_n | \mathbf{x}_n, \mathbf{w})
= \mathcal{N}(y_n | \mathbf{w}^{\top} \mathbf{x}_n, \lambda^{-1})
\tag{3.143}
$$
パラメータ$\mathbf{w}$を観測データ$\mathbf{y} = \{y_1, y_2, \cdots, y_M\}$、$\mathbf{X} = \{\mathbf{x}_1, \mathbf{x}_2, \cdots, \mathbf{x}_N\}$から学習するため、次の多次元ガウス分布を事前分布として設定する。
$$
p(\mathbf{w})
= p(\mathbf{w} | \mathbf{m}, \boldsymbol{\Lambda}^{-1})
\tag{3.144}
$$
ここで$\mathbf{m}$は平均パラメータ、$\boldsymbol{\Lambda} = \boldsymbol{\Sigma}^{-1}$は精度行列パラメータである。この事前分布のパラメータ$\mathbf{m},\ \boldsymbol{\Lambda}$を超パラメータと呼ぶ。
3.5.2 事後分布と予測分布の計算
仮定した観測モデルを用いて事後分布と予測分布を求めていく。
・事後分布の導出
観測データ$\mathbf{y},\ \mathbf{X}$によって学習したパラメータ$\mathbf{w}$の事後分布$p(\mathbf{w} | \mathbf{y}, \mathbf{X})$は、観測モデルに対してベイズの定理を用いて
$$
\begin{align}
p(\mathbf{w} | \mathbf{y}, \mathbf{X})
&= \frac{
p(\mathbf{y} | \mathbf{X}, \mathbf{w})
p(\mathbf{w})
}{
p(\mathbf{y} | \mathbf{X})
}
\\
&= \frac{
\left( \prod_{n=1}^N
p(y_n | \mathbf{x}_n, \mathbf{w})
\right)
p(\mathbf{w})
}{
p(\mathbf{y} | \mathbf{X})
}
\\
&\propto
\left( \prod_{n=1}^N
p(y_n | \mathbf{x}_n, \mathbf{w})
\right)
p(\mathbf{w})
\tag{3.145}\\
\\
&\propto
\left( \prod_{n=1}^N
\mathcal{N}(y_n | \mathbf{w}^{\top} \mathbf{x}_n, \lambda^{-1})
\right)
\mathcal{N}(\mathbf{w} | \mathbf{m}, \boldsymbol{\Lambda}^{-1})
\end{align}
$$
となる。分母の$p(\mathbf{y} | \mathbf{X})$は$\mathbf{w}$に影響しないため省略して、比例関係にのみ注目する。省略した部分については、最後に正規化することで対応できる。
次にこの分布の具体的な形状を明らかにしていく。対数をとって指数部分の計算を分かりやすくして、$\mathbf{w}$に関して整理すると
$$
\begin{align}
\ln p(\mathbf{w} | \mathbf{y}, \mathbf{X})
&= \sum_{n=1}^N
\ln \mathcal{N}(y_n | \mathbf{w}^{\top} \mathbf{x}_n, \lambda^{-1})
+ \ln \mathcal{N}(\mathbf{w} | \mathbf{m}, \boldsymbol{\Lambda}^{-1})
+ \mathrm{const.}
\\
&= \sum_{n=1}^N
- \frac{1}{2} \Bigl\{
(y_n - \mathbf{w}^{\top} \mathbf{x}_n)^2
\lambda
+ \ln \lambda^{-1}
+ \ln 2 \pi
\Bigr\} \\
&\qquad
- \frac{1}{2} \Bigl\{
(\mathbf{w} - \mathbf{m})^{\top}
\boldsymbol{\Lambda}
(\mathbf{w} - \mathbf{m})
+ \ln |\boldsymbol{\Lambda}^{-1}|
+ M \ln 2 \pi
\Bigr\}
+ \mathrm{const.}
\\
&= \sum_{n=1}^N
- \frac{1}{2} \Bigl\{
\lambda y_n^2
- 2 \lambda y_n \mathbf{w}^{\top} \mathbf{x}_n
+ \lambda \mathbf{w}^{\top} \mathbf{x}_n \mathbf{w}^{\top} \mathbf{x}_n
\Bigr\} \\
&\qquad
- \frac{1}{2} \Bigl\{
\mathbf{w}^{\top} \boldsymbol{\Lambda} \mathbf{w}
- 2 \mathbf{w}^{\top} \boldsymbol{\Lambda} \mathbf{m}
+ \mathbf{m}^{\top} \boldsymbol{\Lambda} \mathbf{m})
\Bigr\}
+ \mathrm{const.}
\\
&= - \frac{1}{2} \left\{
- 2 \lambda \sum_{n=1}^N
y_n \mathbf{w}^{\top} \mathbf{x}_n
+ \lambda \sum_{n=1}^N
\mathbf{w}^{\top} \mathbf{x}_n \mathbf{x}_n^{\top} \mathbf{w}
+ \mathbf{w}^{\top} \boldsymbol{\Lambda} \mathbf{w}
- 2 \mathbf{w}^{\top} \boldsymbol{\Lambda} \mathbf{m}
\right\}
+ \mathrm{const.}
\\
&= - \frac{1}{2} \left\{
\mathbf{w}^{\top} \left(
\lambda
\sum_{n=1}^N \mathbf{x}_n \mathbf{x}_n^{\top}
+ \boldsymbol{\Lambda}
\right)
\mathbf{w}
- 2 \mathbf{w}^{\top} \left(
\lambda
\sum_{n=1}^N y_n \mathbf{x}_n
+ \boldsymbol{\Lambda} \mathbf{m}
\right)
\right\}
+ \mathrm{const.}
\tag{3.146}
\end{align}
$$
【途中式の途中式】
- 具体的な式に置き換える。
- 括弧を展開する。
- $\mathbf{w}^{\top} \mathbf{x}_n$はスカラなので転置しても影響しない。よって$\mathbf{w}^{\top} \mathbf{x}_n = (\mathbf{w}^{\top} \mathbf{x}_n)^{\top} = \mathbf{x}_n^{\top} \mathbf{w}$とできる。
- $\mathbf{w}^{\top} \mathbf{w},\ \mathbf{w}^{\top}$の項をそれぞれまとめる。
となる。適宜$\mathbf{w}$に影響しない項を$\mathrm{const.}$にまとめている。
式の形から事前分布と同じく$M$次元のガウス分布となることが分かる。そこで事後分布を
$$
p(\mathbf{w} | \mathbf{y}, \mathbf{X})
= \mathcal{N}(\mathbf{w} | \hat{\mathbf{m}}, \hat{\boldsymbol{\Lambda}})
\tag{3.147}
$$
とおき、対数をとり$\mathbf{w}$に関して整理すると
$$
\begin{aligned}
\ln \mathcal{N}(\mathbf{w} | \hat{\mathbf{m}}, \hat{\boldsymbol{\Lambda}})
&= - \frac{1}{2} \Bigl\{
(\mathbf{w} - \hat{\mathbf{m}})^{\top}
\hat{\boldsymbol{\Lambda}}
(\mathbf{w} - \hat{\mathbf{m}})
+ \ln |\hat{\boldsymbol{\Lambda}}^{-1}|
+ M \ln 2 \pi
\Bigr\}
\\
&= - \frac{1}{2} \Bigl\{
\mathbf{w}^{\top} \hat{\boldsymbol{\Lambda}} \mathbf{w}
- 2 \mathbf{w}^{\top} \hat{\boldsymbol{\Lambda}} \hat{\mathbf{m}}
\Bigr\}
+ \mathrm{const.}
\end{aligned}
$$
となる。
従って式(3.146)との対応関係から、事後分布のパラメータの計算式
$$
\begin{align}
\hat{\boldsymbol{\Lambda}}
&= \lambda
\sum_{n=1}^N \mathbf{x}_n \mathbf{x}_n^{\top}
+ \boldsymbol{\Lambda}
\tag{3.148.b}\\
\hat{\boldsymbol{\Lambda}} \hat{\mathbf{m}}
&= \lambda
\sum_{n=1}^N y_n \mathbf{x}_n
+ \boldsymbol{\Lambda} \mathbf{m}
\\
\hat{\mathbf{m}}
&= \hat{\boldsymbol{\Lambda}}^{-1} \left(
\lambda
\sum_{n=1}^N y_n \mathbf{x}_n
+ \boldsymbol{\Lambda} \mathbf{m}
\right)
\tag{3.148.a}
\end{align}
$$
が得られる。
・予測分布の導出
次に、新規の入力値$\mathbf{x}_{*}$が与えられたときの出力値$y_{*}$の予測分布$(y_{*} | \mathbf{x}_{*}, \mathbf{y}, \mathbf{X})$を求めていく。
まずは学習を行っていない事前分布を用いて、ベイズの定理より
$$
p(\mathbf{w} | y_{*}, \mathbf{x}_{*})
= \frac{
p(y_{*} | \mathbf{x}_{*}, \mathbf{w})
p(\mathbf{w})
}{
p(y_{*} | \mathbf{x}_{*})
}
\tag{3.149}
$$
となる。この式の対数をとり、$p(y_{*} | \mathbf{x}_{*})$に関して整理すると
$$
\begin{align}
\ln p(\mathbf{w} | y_{*}, \mathbf{x}_{*})
&= \ln p(y_{*} | \mathbf{x}_{*}, \mathbf{w})
+ \ln p(\mathbf{w})
- \ln p(y_{*} | \mathbf{x}_{*})
\\
\ln p(y_{*} | \mathbf{x}_{*})
&= \ln p(y_{*} | \mathbf{x}_{*}, \mathbf{w})
- \ln p(\mathbf{w} | y_{*}, \mathbf{x}_{*})
+ \mathrm{const.}
\tag{3.150}
\end{align}
$$
で求められることが分かる。
1つ目の項は、モデル(3.143)から計算できる。2つ目の項は、データが1つ($N = 1$)の事後分布(3.137)と捉えられることから、パラメータを
$$
\begin{align}
\boldsymbol{\Lambda}_{*}
&= \lambda \mathbf{x}_{*} \mathbf{x}_{*}^{\top}
+ \boldsymbol{\Lambda}
\\
\mathbf{m}_{*}
&= \boldsymbol{\Lambda}_{*}^{-1} \left(
\lambda y_{*} \mathbf{x}_{*}
+ \boldsymbol{\Lambda} \mathbf{m}
\right)
\tag{3.152}
\end{align}
$$
とおくと
$$
p(\mathbf{w} | y_{*}, \mathbf{x}_{*})
= \mathcal{N}(\mathbf{w} | \mathbf{m}_{*}, \boldsymbol{\Lambda}_{*}^{-1})
\tag{3.151}
$$
で計算できる。
この式を式(3.150)に代入して、$\mathbf{x}_{*}$に関して整理すると
$$
\begin{align}
\ln p(y_{*} | \mathbf{x}_{*})
&= \ln \mathcal{N}(y_{*} | \mathbf{w}^{\top} \mathbf{x}_{*}, \lambda)
- \ln \mathcal{N}(\mathbf{w} | \mathbf{m}_{*}, \boldsymbol{\Lambda}_{*}^{-1})
+ \mathrm{const.}
\\
&= - \frac{1}{2} \Bigl\{
(y_{*} - \mathbf{w}^{\top} \mathbf{x}_{*})^2
\lambda
+ \ln \lambda^{-1}
+ \ln 2 \pi
\Bigr\} \\
&\qquad
+ \frac{1}{2} \Bigl\{
(\mathbf{w} - \mathbf{m}_{*})^{\top}
\boldsymbol{\Lambda}_{*}
(\mathbf{w} - \mathbf{m}_{*})
+ \ln |\boldsymbol{\Lambda}_{*}^{-1}|
+ M \ln 2 \pi
\Bigr\}
+ \mathrm{const.}
\\
&= - \frac{1}{2} \Bigl(
\lambda y_{*}^2
- 2 \lambda y_{*} \mathbf{w}^{\top} \mathbf{x}_{*}
+ \lambda \mathbf{w}^{\top} \mathbf{x}_{*} \mathbf{w}^{\top} \mathbf{x}_{*}
\Bigr) \\
&\qquad
+ \frac{1}{2} \Bigl(
\mathbf{w}^{\top} \boldsymbol{\Lambda}_{*} \mathbf{w}
- 2 \mathbf{w}^{\top} \boldsymbol{\Lambda}_{*} \mathbf{m}_{*}
+ \mathbf{m}_{*}^{\top} \boldsymbol{\Lambda}_{*} \mathbf{m}_{*}
\Bigr)
+ \mathrm{const.}
\\
&= - \frac{1}{2} \Bigl(
\lambda y_{*}^2
- 2 \lambda y_{*} \mathbf{w}^{\top} \mathbf{x}_{*}
\Bigr) \\
&\qquad
+ \frac{1}{2} \Bigl\{
- 2 \mathbf{w}^{\top} (
\lambda y_{*} \mathbf{x}_{*}
+ \boldsymbol{\Lambda} \mathbf{m}
)
+ (
\lambda y_{*} \mathbf{x}_{*}
+ \boldsymbol{\Lambda} \mathbf{m}
)^{\top}
\boldsymbol{\Lambda}_{*}^{-1} (
\lambda y_{*} \mathbf{x}_{*}
+ \boldsymbol{\Lambda} \mathbf{m}
)
\Bigr\}
+ \mathrm{const.}
\\
&= - \frac{1}{2} \Bigl(
\lambda y_{*}^2
- 2 \lambda y_{*} \mathbf{w}^{\top} \mathbf{x}_{*}
+ 2 \lambda y_{*} \mathbf{w}^{\top} \mathbf{x}_{*}
- \lambda^2 y_{*}^2
\mathbf{x}_{*}^{\top} \boldsymbol{\Lambda}_{*}^{-1} \mathbf{x}_{*}
- 2 \lambda y_{*}
\mathbf{x}_{*}^{\top} \boldsymbol{\Lambda}_{*}^{-1} \boldsymbol{\Lambda} \mathbf{m}
\Bigr)
+ \mathrm{const.}
\\
&= - \frac{1}{2} \Bigl[
\Bigl\{
\lambda
- \lambda^2 \mathbf{x}_{*}^{\top}
(\lambda \mathbf{x}_{*} \mathbf{x}_{*}^{\top} + \boldsymbol{\Lambda})^{-1}
\mathbf{x}_{*}
\Bigr\}
y_{*}^2
- 2 \lambda \mathbf{x}_{*}^{\top}
(\lambda \mathbf{x}_{*} \mathbf{x}_{*}^{\top} + \boldsymbol{\Lambda})^{-1}
\boldsymbol{\Lambda} \mathbf{m}
y_{*}
\Bigl]
+ \mathrm{const.}
\tag{3.153}
\end{align}
$$
【途中式の途中式】
- 具体的な式に置き換える。
- 括弧を展開する。
- $\mathbf{m}_{*}$に式(3.152)を代入する。このとき$\mathbf{m}_{*}^{\top} = \{\boldsymbol{\Lambda}_{*}^{-1} (\lambda y_{*} \mathbf{x}_{*} + \boldsymbol{\Lambda} \mathbf{m})\}^{\top} = (\lambda y_{*} \mathbf{x}_{*} + \boldsymbol{\Lambda} \mathbf{m})^{\top} (\boldsymbol{\Lambda}_{*}^{-1})^{\top}$であり、また$\mathbf{m}_{*}^{\top} \boldsymbol{\Lambda}_{*} \mathbf{m}_{*}$はスカラになるので転置しても影響しないため、$(\mathbf{a}^{\top} \mathbf{B}^{\top} \mathbf{c})^{\top} = \mathbf{c}^{\top} \mathbf{B} \mathbf{a}$の変形を行う。
- 括弧を展開する。
- $y_{*}^2,\ y_{*}$の項をそれぞれまとめる。また$\boldsymbol{\Lambda}_{*}$に式(3.152)を代入する。
となる。適宜$y_{*}$に影響しない項を$\mathrm{const.}$にまとめている。
式の形から1次元のガウス分布になることが分かる。そこで予測分布を
$$
p(y_{*} | \mathbf{x}_{*})
= \mathcal{N}(y_{*} | \mu_{*}, \lambda_{*}^{-1})
$$
とおき、対数をとり$y_{*}$に関して整理すると
$$
\begin{aligned}
\ln p(y_{*} | \mu_{*}, \lambda_{*}^{-1})
&= - \frac{1}{2} \Bigl\{
(y_{*} - \mu_{*})^2
\lambda_{*}
+ \ln \lambda_{*}^{-1}
+ \ln 2 \pi
\Bigr\}
\\
&= - \frac{1}{2} \Bigl(
\lambda_{*} y_{*}^2
- 2 \lambda_{*} \mu_{*} y_{*}
+ \lambda_{*} \mu_{*}^2
\Bigr)
\end{aligned}
$$
となる。
従って式(3.153)との対応関係から、予測分布の精度パラメータの計算式
$$
\begin{align}
\lambda_{*}
&= \lambda
- \lambda^2 \mathbf{x}_{*}^{\top} (
\lambda \mathbf{x}_{*} \mathbf{x}_{*}^{\top}
+ \boldsymbol{\Lambda}
)^{-1}
\mathbf{x}_{*}
\\
&= \lambda \Bigl[
\mathbf{I}_1^{-1}
- \lambda \mathbf{I}_1^{-1} \mathbf{x}_{*}^{\top} \Bigl\{
(\boldsymbol{\Lambda}^{-1})^{-1}
+ \lambda \mathbf{x}_{*} \mathbf{I}_1^{-1} \mathbf{x}_{*}^{\top}
\Bigr\}^{-1}
\mathbf{x}_{*} \mathbf{I}_1^{-1}
\Bigr]
\\
&= \lambda \Bigl(
\mathbf{I}_1
+ \lambda \mathbf{x}_{*}^{\top} \boldsymbol{\Lambda}^{-1} \mathbf{x}_{*}
\Bigr)^{-1}
\\
&= \frac{
\lambda
}{
1
+ \lambda
\mathbf{x}_{*}^{\top} \boldsymbol{\Lambda}^{-1} \mathbf{x}_{*}
}
\\
\lambda_{*}^{-1}
&= \frac{
1
+ \lambda
\mathbf{x}_{*}^{\top} \boldsymbol{\Lambda}^{-1} \mathbf{x}_{*}
}{
\lambda
}
\\
&= \lambda^{-1}
+ \mathbf{x}_{*}^{\top} \boldsymbol{\Lambda}^{-1} \mathbf{x}_{*}
\tag{3.155.b}
\end{align}
$$
【途中式の途中式】
- $\lambda$を括り出す。また$(1 \times 1)$の単位行列$1 = \mathbf{I}_1 = \mathbf{I}_1^{-1}$を用いて、式(A.7)の右辺の形に合わせる。
- $\mathbf{I}_1$を$\mathbf{A}$、$\boldsymbol{\Lambda}^{-1}$を$\mathbf{B}$、$\mathbf{x}_{*}^{\top}$を$\mathbf{U}$、$\mathbf{x}_{*}$を$\mathbf{V}$として、式(A.7)の変形を行う。
- 括弧の中はスカラになるため、$-1$乗は逆数である。
- 両辺で逆数をとり、式を整理する。
と、平均パラメータの計算式
$$
\begin{align}
\lambda_{*} \mu_{*}
&= \lambda \mathbf{x}_{*}^{\top}
(\lambda \mathbf{x}_{*} \mathbf{x}_{*}^{\top} + \boldsymbol{\Lambda})^{-1}
\boldsymbol{\Lambda} \mathbf{m}
\\
\mu_{*}
&= \lambda \mathbf{x}_{*}^{\top} (
\boldsymbol{\Lambda}
+ \lambda
\mathbf{x}_{*} \mathbf{x}_{*}^{\top}
)^{-1}
\boldsymbol{\Lambda} \mathbf{m}
\lambda_{*}^{-1}
\\
&= \lambda \mathbf{x}_{*}^{\top} \left(
\boldsymbol{\Lambda}^{-1}
- \frac{
\lambda \boldsymbol{\Lambda}^{-1}
\mathbf{x}_{*} \mathbf{x}_{*}^{\top}
\boldsymbol{\Lambda}^{-1}
}{
1
+ \lambda
\mathbf{x}_{*}^{\top} \boldsymbol{\Lambda}^{-1} \mathbf{x}_{*}
}
\right)
\boldsymbol{\Lambda} \mathbf{m}
\lambda_{*}^{-1}
\\
&= \lambda \mathbf{x}_{*}^{\top} \mathbf{m}
\lambda_{*}^{-1}
- \lambda \mathbf{x}_{*}^{\top}
\boldsymbol{\Lambda}^{-1}
\mathbf{x}_{*} \mathbf{x}_{*}^{\top} \mathbf{m}
\lambda_{*}
\lambda_{*}^{-1}
\\
&= \lambda \mathbf{m}_{*}^{\top} \mathbf{x}_{*} (
\lambda^{-1}
+ \mathbf{x}_{*}^{\top} \boldsymbol{\Lambda}^{-1} \mathbf{x}_{*}
)
- \lambda
\mathbf{m}^{\top} \mathbf{x}_{*}
\mathbf{x}_{*}^{\top} (\boldsymbol{\Lambda}^{-1})^{\top} \mathbf{x}_{*}
\\
&= \mathbf{m}_{*}^{\top} \mathbf{x}_{*}
+ \lambda
\mathbf{m}_{*}^{\top} \mathbf{x}_{*}
\mathbf{x}_{*}^{\top} \boldsymbol{\Lambda}^{-1} \mathbf{x}_{*}
- \lambda
\mathbf{m}^{\top} \mathbf{x}_{*}
\mathbf{x}_{*}^{\top} \boldsymbol{\Lambda}^{-1} \mathbf{x}_{*}
\\
&= \mathbf{m}^{\top} \mathbf{x}_{*}
\tag{3.155.a}
\end{align}
$$
【途中式の途中式】
- 式を整理する。
- $\boldsymbol{\Lambda}$を$\mathbf{A}$、$\mathbf{x}$を$\mathbf{b},\ \mathbf{c}$として、式(A.9)の変形を行う。
- 括弧を展開する。また式(3.155.b)より、$\lambda_{*} = \frac{\lambda}{1 + \lambda \mathbf{x}_{*}^{\top} \boldsymbol{\Lambda}^{-1} \mathbf{x}_{*}}$である。
- 前の項に式(3.155.b)を代入する。後の項はスカラになるので、$(\mathbf{A} \mathbf{B} \mathbf{C})^{\top} = \mathbf{C}^{\top} \mathbf{B}^{\top} \mathbf{A}^{\top}$の変形を行う。
- 前の項の括弧を展開する。後の項の$\mathbf{x}_{*}^{\top} (\boldsymbol{\Lambda}^{-1})^{\top} \mathbf{x}_{*}$についても転置できる。
が得られる。
事前分布のパラメータ$\mathbf{m},\ \boldsymbol{\Lambda}$を事後分布のパラメータ$\hat{\mathbf{m}},\ \hat{\boldsymbol{\Lambda}}$に置き換えると、観測データによって学習を行った予測分布$p(y_{*} | \mathbf{x}_{*}, \mathbf{y}, \mathbf{X})$のパラメータ
$$
\begin{aligned}
\hat{\mu}_{*}
&= \hat{\mathbf{m}}^{\top} \mathbf{x}_{*}
\\
\hat{\lambda}_{*}^{-1}
&= \lambda^{-1}
+ \mathbf{x}_{*}^{\top} \hat{\boldsymbol{\Lambda}}^{-1} \mathbf{x}_{*}
\end{aligned}
$$
が得られる。
参考文献
- 須山敦志『ベイズ推論による機械学習入門』(機械学習スタートアップシリーズ)杉山将監修,講談社,2017年.
おわりに
この節で3章終了!多次元ガウス分布の転置パズルにもだいぶ慣れてきた!と思ったら、最後の$\mu_{*},\ \lambda_{*}$のところでまた脳みそ捻じ切れそうでした。
4章に進むか、過去記事を修正しながら復習するか、内容の被ってるPRMLをやるか悩む。
【次節の内容】
www.anarchive-beta.com