からっぽのしょこ

読んだら書く!書いたら読む!同じ事は二度調べ(たく)ない

3.3.1:行動価値関数【ゼロつく4のノート】

はじめに

 『ゼロから作るDeep Learning 4 ――強化学習編』の独学時のまとめノートです。初学者の補助となるようにゼロつくシリーズの4巻の内容に解説を加えていきます。本と一緒に読んでください。

 この記事は、3.3.1節の内容です。行動価値関数の定義式を確認します。

【前節の内容】

www.anarchive-beta.com

【他の記事一覧】

www.anarchive-beta.com

【この記事の内容】

3.3.1 行動価値関数

 前節では、状態価値関数を確認しました。この節では、行動価値関数(Q関数)を確認します。状態価値関数については「2.3:収益と状態価値関数【ゼロつく4のノート】 - からっぽのしょこ」と「3.1.2:状態価値関数のベルマン方程式の導出【ゼロつく4のノート】 - からっぽのしょこ」を参照してください。

・行動価値関数の定義

 まずは、状態価値関数と行動価値関数の定義を確認します。

 状態価値関数$v_{\pi}(s)$は、次の式で定義されます。

$$ v_{\pi}(s) = \mathbb{E}_{\pi}[G_t | S_t = s] \tag{1} $$

 状態$s$から方策$\pi$に従って行動を続けたときに得られる収益$G_t$の期待値を表し、状態$s$の価値と言えます。

 行動価値関数$q_{\pi}(s, a)$は、次の式で定義されます。

$$ q_{\pi}(s, a) = \mathbb{E}_{\pi}[G_t | S_t = s, A_t = a] \tag{2} $$

 状態$s$で行動$a$を取りその後に方策$\pi$に従って行動を続けたときに得られる収益$G_t$の期待値を表し、状態$s$と行動$a$の価値と言えます。

・状態価値関数と行動価値関数の関係

 次に、状態価値関数と行動価値関数の関係を導出します。

 「3.1.2:状態価値関数のベルマン方程式の導出【ゼロつく4のノート】 - からっぽのしょこ」で確認した期待値の性質(3)より、次の関係が成り立ちます。

$$ \begin{aligned} \mathbb{E}_{\pi}[G_t | S_t = s] &= \sum_a \pi(A_t = a | S_t = s) \mathbb{E}_{\pi}[G_t | S_t = s, A_t = a] \\ &= \sum_a \pi(a | s) \mathbb{E}_{\pi}[G_t | S_t = s, A_t = a] \end{aligned} $$

 確率的方策$\pi(a | s)$は時刻に依存しないことから置き換えています。
 式(1)と(2)より両辺の期待値の項を置き換えます。

$$ v_{\pi}(s) = \sum_a \pi(a | s) q_{\pi}(s, a) \tag{3.11} $$

 状態価値関数$v_{\pi}(s)$と行動価値関数$q_{\pi}(s, a)$の関係が得られました。この式の解釈については本を参照してください。

 以上で、行動価値関数の定義を確認できました。次項では、行動価値関数についてのベルマン方程式を導出します。

参考文献

おわりに

 次に続く。

【次節の内容】

www.anarchive-beta.com