はじめに

　『ゼロから作るDeep Learning 4 ――強化学習編』の独学時のまとめノートです。初学者の補助となるようにゼロつくシリーズの4巻の内容に解説を加えていきます。本と一緒に読んでください。

　この記事は、3.3.1節の内容です。行動価値関数の定義式を確認します。

【前節の内容】

www.anarchive-beta.com

【他の記事一覧】

www.anarchive-beta.com

【この記事の内容】

はじめに
- 3.3.1 行動価値関数
  - ・行動価値関数の定義
  - ・状態価値関数と行動価値関数の関係
参考文献
おわりに

3.3.1 行動価値関数

　前節では、状態価値関数を確認しました。この節では、行動価値関数(Q関数)を確認します。状態価値関数については「2.3：収益と状態価値関数【ゼロつく4のノート】 - からっぽのしょこ」と「3.1.2：状態価値関数のベルマン方程式の導出【ゼロつく4のノート】 - からっぽのしょこ」を参照してください。

・行動価値関数の定義

　まずは、状態価値関数と行動価値関数の定義を確認します。

　状態価値関数$v_{\pi}(s)$は、次の式で定義されます。

$$ v_{\pi}(s) = \mathbb{E}_{\pi}[G_t | S_t = s] \tag{1} $$

　状態$s$から方策$\pi$に従って行動を続けたときに得られる収益$G_t$の期待値を表し、状態$s$の価値と言えます。

　行動価値関数$q_{\pi}(s, a)$は、次の式で定義されます。

$$ q_{\pi}(s, a) = \mathbb{E}_{\pi}[G_t | S_t = s, A_t = a] \tag{2} $$

　状態$s$で行動$a$を取りその後に方策$\pi$に従って行動を続けたときに得られる収益$G_t$の期待値を表し、状態$s$と行動$a$の価値と言えます。

・状態価値関数と行動価値関数の関係

　次に、状態価値関数と行動価値関数の関係を導出します。

　「3.1.2：状態価値関数のベルマン方程式の導出【ゼロつく4のノート】 - からっぽのしょこ」で確認した期待値の性質(3)より、次の関係が成り立ちます。

$$ \begin{aligned} \mathbb{E}_{\pi}[G_t | S_t = s] &= \sum_a \pi(A_t = a | S_t = s) \mathbb{E}_{\pi}[G_t | S_t = s, A_t = a] \\ &= \sum_a \pi(a | s) \mathbb{E}_{\pi}[G_t | S_t = s, A_t = a] \end{aligned} $$

　確率的方策$\pi(a | s)$は時刻に依存しないことから置き換えています。
　式(1)と(2)より両辺の期待値の項を置き換えます。

$$ v_{\pi}(s) = \sum_a \pi(a | s) q_{\pi}(s, a) \tag{3.11} $$

　状態価値関数$v_{\pi}(s)$と行動価値関数$q_{\pi}(s, a)$の関係が得られました。この式の解釈については本を参照してください。

　以上で、行動価値関数の定義を確認できました。次項では、行動価値関数についてのベルマン方程式を導出します。

参考文献

斎藤康毅『ゼロから作るDeep Learning 4 ――強化学習編』オライリー・ジャパン,2022年.
サポートページ：GitHub - oreilly-japan/deep-learning-from-scratch-4

おわりに

　次に続く。

【次節の内容】

からっぽのしょこ

読んだら書く！書いたら読む！同じ事は二度調べ(たく)ない

3.3.1：行動価値関数【ゼロつく4のノート】