からっぽのしょこ

読んだら書く!書いたら読む!同じ事は二度調べ(たく)ない

『ゼロから作るDeep Learning 4』の学習ノート:記事一覧

はじめに

 『ゼロから作るDeep Learning 4 ――強化学習編』の独学時のまとめノートです。初学者の補助となるようにゼロつくシリーズの4巻の内容に解説を加えていきます。本と一緒に読んでください。

 この記事は、各節の記事のリンクページです。

【前巻の内容】

www.anarchive-beta.com

【今巻の内容】

記事一覧

1章 バンディット問題

 真の期待値と推定期待値(標本平均)を計算してグラフで確認します。

www.anarchive-beta.com


 簡単なスロットマシン(バンディット)とプレイヤー(エージェント)のクラスを実装して、バンディット問題を解きます。

www.anarchive-beta.com

www.anarchive-beta.com

www.anarchive-beta.com


 非定常問題に対応したスロットマシン(バンディット)とプレイヤー(エージェント)のクラスを実装して、非定常バンディット問題を解きます。

www.anarchive-beta.com

www.anarchive-beta.com

www.anarchive-beta.com


2章 マルコフ決定過程

 MDPの問題設定を確認します。

www.anarchive-beta.com

www.anarchive-beta.com


3章 ベルマン方程式

 基本的な確率の話です。

www.anarchive-beta.com


 状態価値関数についてのベルマン方程式を確認します。

www.anarchive-beta.com

www.anarchive-beta.com


 行動価値関数についてのベルマン方程式を確認します。

www.anarchive-beta.com

www.anarchive-beta.com


 最適な方策を得るための計算を確認します。

www.anarchive-beta.com

www.anarchive-beta.com

www.anarchive-beta.com


4章 動的計画法

 2マスのグリッドワールドで反復方策評価を行います。

www.anarchive-beta.com


 3×4マスのグリッドワールドのクラスを確認します。

www.anarchive-beta.com


 反復方策評価を実装して、状態価値関数を求めます。

www.anarchive-beta.com


 方策反復法を実装して、最適方策を求めます。

www.anarchive-beta.com

www.anarchive-beta.com


 価値反復法を実装して、最適状態価値関数と最適方策を求めます。

www.anarchive-beta.com

www.anarchive-beta.com


5章 モンテカルロ法

 今読んでます…

参考文献


おわりに

  • 2022/05/04

 これまでのように独習ノートを作りながら読み進めます。現在は1~3章をまとめ中です。1~3巻を読んでる必要はなさそうですね。

  • 2022/05/26

 3章まで書き終わりました。プログラミングが少なく数式弄りが多くて大変ですね。思ったより時間がかかりました。これから4章に進みます。

  • 2022/06/08

 4章の内容をまとめ終わりました。似通った名前と手法なので色々混乱しましたが、丁寧に本を読み返すとちゃんと解説されていました。本を読みましょう繰り返し何度も、反復が大事です。