はじめに
『ゼロから作るDeep Learning 4 ――強化学習編』の独学時のまとめノートです。初学者の補助となるようにゼロつくシリーズの4巻の内容に解説を加えていきます。本と一緒に読んでください。
この記事は、3.3.1節の内容です。行動価値関数の定義式を確認します。
【前節の内容】
【他の記事一覧】
【この記事の内容】
3.3.1 行動価値関数
前節では、状態価値関数を確認しました。この節では、行動価値関数(Q関数)を確認します。状態価値関数については「2.3:収益と状態価値関数【ゼロつく4のノート】 - からっぽのしょこ」と「3.1.2:状態価値関数のベルマン方程式の導出【ゼロつく4のノート】 - からっぽのしょこ」を参照してください。
・行動価値関数の定義
まずは、状態価値関数と行動価値関数の定義を確認します。
状態価値関数$v_{\pi}(s)$は、次の式で定義されます。
状態$s$から方策$\pi$に従って行動を続けたときに得られる収益$G_t$の期待値を表し、状態$s$の価値と言えます。
行動価値関数$q_{\pi}(s, a)$は、次の式で定義されます。
状態$s$で行動$a$を取りその後に方策$\pi$に従って行動を続けたときに得られる収益$G_t$の期待値を表し、状態$s$と行動$a$の価値と言えます。
・状態価値関数と行動価値関数の関係
次に、状態価値関数と行動価値関数の関係を導出します。
「3.1.2:状態価値関数のベルマン方程式の導出【ゼロつく4のノート】 - からっぽのしょこ」で確認した期待値の性質(3)より、次の関係が成り立ちます。
確率的方策$\pi(a | s)$は時刻に依存しないことから置き換えています。
式(1)と(2)より両辺の期待値の項を置き換えます。
状態価値関数$v_{\pi}(s)$と行動価値関数$q_{\pi}(s, a)$の関係が得られました。この式の解釈については本を参照してください。
以上で、行動価値関数の定義を確認できました。次項では、行動価値関数についてのベルマン方程式を導出します。
参考文献
おわりに
次に続く。
【次節の内容】