からっぽのしょこ

読んだら書く!書いたら読む!同じ事は二度調べ(たく)ない

『ゼロから作るDeep Learning 4』の学習ノート:記事一覧

はじめに

 『ゼロから作るDeep Learning 4 ――強化学習編』の独学時のまとめノートです。初学者の補助となるようにゼロつくシリーズの4巻の内容に解説を加えていきます。本と一緒に読んでください。

 この記事は、各節の記事のリンクページです。

【前巻の内容】

www.anarchive-beta.com

【今巻の内容】

記事一覧

1章 バンディット問題

 真の期待値と推定期待値(標本平均)を計算してグラフで確認します。

www.anarchive-beta.com


 簡単なスロットマシン(バンディット)とプレイヤー(エージェント)のクラスを実装して、バンディット問題を解きます。

www.anarchive-beta.com

www.anarchive-beta.com

www.anarchive-beta.com


 非定常問題に対応したスロットマシン(バンディット)とプレイヤー(エージェント)のクラスを実装して、非定常バンディット問題を解きます。

www.anarchive-beta.com

www.anarchive-beta.com

www.anarchive-beta.com


2章 マルコフ決定過程

 MDPの問題設定を確認します。

www.anarchive-beta.com

www.anarchive-beta.com


3章 ベルマン方程式

 基本的な確率の話です。

https://www.anarchive-beta.com/entry/2022/05/20/180000www.anarchive-beta.com


 状態価値関数のベルマン方程式を確認します。

https://www.anarchive-beta.com/entry/2022/05/21/180000www.anarchive-beta.com

https://www.anarchive-beta.com/entry/2022/05/22/180000www.anarchive-beta.com


 行動価値関数のベルマン方程式を確認中…


4章

 これから

参考文献


おわりに

  • 2022/05/04

 これまでのように独習ノートを作りながら読み進めます。現在は1~3章をまとめ中。