はじめに
『ゼロから作るDeep Learning 4 ――強化学習編』の独学時のまとめノートです。初学者の補助となるようにゼロつくシリーズの4巻の内容に解説を加えていきます。本と一緒に読んでください。
この記事は、各節の記事のリンクページです。
【前巻の内容】
【今巻の内容】
記事一覧
1章 バンディット問題
真の期待値と推定期待値(標本平均)を計算してグラフで確認します。
簡単なスロットマシン(バンディット)とプレイヤー(エージェント)のクラスを実装して、バンディット問題を解きます。
非定常問題に対応したスロットマシン(バンディット)とプレイヤー(エージェント)のクラスを実装して、非定常バンディット問題を解きます。
2章 マルコフ決定過程
MDPの問題設定を確認します。
3章 ベルマン方程式
基本的な確率の話です。
https://www.anarchive-beta.com/entry/2022/05/20/180000www.anarchive-beta.com
状態価値関数のベルマン方程式を確認します。
https://www.anarchive-beta.com/entry/2022/05/21/180000www.anarchive-beta.com
https://www.anarchive-beta.com/entry/2022/05/22/180000www.anarchive-beta.com
行動価値関数のベルマン方程式を確認中…
4章
これから
参考文献
- 斎藤康毅『ゼロから作るDeep Learning 4 ――強化学習編』オライリー・ジャパン,2022年.
- サポートページ:GitHub - oreilly-japan/deep-learning-from-scratch-4
おわりに
- 2022/05/04
これまでのように独習ノートを作りながら読み進めます。現在は1~3章をまとめ中。