からっぽのしょこ

読んだら書く!書いたら読む!同じ事は二度調べ(たく)ない

『ゼロから作るDeep Learning 4』の学習ノート:記事一覧

はじめに

 『ゼロから作るDeep Learning 4 ――強化学習編』の独学時のまとめノートです。初学者の補助となるようにゼロつくシリーズの4巻の内容に解説を加えていきます。本と一緒に読んでください。

 この記事は、各節の記事のリンクページです。

【前巻の内容】

www.anarchive-beta.com

【今巻の内容】

記事一覧

1章 バンディット問題

 真の期待値と推定期待値(標本平均)を計算してグラフで確認します。

www.anarchive-beta.com


 簡単なスロットマシン(バンディット)とプレイヤー(エージェント)のクラスを実装して、バンディット問題を解きます。

www.anarchive-beta.com

www.anarchive-beta.com

www.anarchive-beta.com


 非定常問題に対応したスロットマシン(バンディット)とプレイヤー(エージェント)のクラスを実装して、非定常バンディット問題を解きます。

www.anarchive-beta.com

www.anarchive-beta.com

www.anarchive-beta.com


2章 マルコフ決定過程

 MDPの問題設定を確認します。

www.anarchive-beta.com

www.anarchive-beta.com


3章 ベルマン方程式

 基本的な確率の話です。

www.anarchive-beta.com


 状態価値関数についてのベルマン方程式を確認します。

www.anarchive-beta.com

www.anarchive-beta.com


 行動価値関数についてのベルマン方程式を確認します。

www.anarchive-beta.com

www.anarchive-beta.com


 最適な方策を得るための計算を確認します。

www.anarchive-beta.com

www.anarchive-beta.com

www.anarchive-beta.com


4章 動的計画法

 2マスのグリッドワールドで反復方策評価を行います。

www.anarchive-beta.com


 3×4マスのグリッドワールドのクラスを確認します。

www.anarchive-beta.com

www.anarchive-beta.com


 反復方策評価を実装して、状態価値関数を求めます。

www.anarchive-beta.com


 方策反復法を実装して、最適方策を求めます。

www.anarchive-beta.com

www.anarchive-beta.com


 価値反復法を実装して、最適状態価値関数と最適方策を求めます。

www.anarchive-beta.com

www.anarchive-beta.com


5章 モンテカルロ法

 方策オフ型のモンテカルロ法を用いて状態価値関数を推定します。

www.anarchive-beta.com

www.anarchive-beta.com


 方策オフ型のモンテカルロ法を用いて行動価値関数を推定します。

www.anarchive-beta.com

www.anarchive-beta.com


 方策オン型のモンテカルロ法を用いて行動価値関数を推定します。

www.anarchive-beta.com

www.anarchive-beta.com


6章 TD法

 TD法を用いて状態価値関数を推定します。

www.anarchive-beta.com


 SARSAを用いて行動価値関数を推定します。

www.anarchive-beta.com

www.anarchive-beta.com


 Q学習を用いて行動価値関数を推定します。

www.anarchive-beta.com

www.anarchive-beta.com


7章 ニューラルネットワークとQ学習

 DeZeroについては3巻を参照してください。

www.anarchive-beta.com


 DeZeroを利用して、ニューラルネットワークを実装します。

www.anarchive-beta.com

www.anarchive-beta.com

www.anarchive-beta.com

www.anarchive-beta.com


 ニューラルネットワークを用いてQ学習を実装します。

www.anarchive-beta.com


8章 DQN

 gymライブラリを確認します。

www.anarchive-beta.com


 DQNを実装して学習します。

www.anarchive-beta.com

この続きを自分で実装してみたくちょっと調べてます。

9章 方策勾配法

ちょっと待って。

参考文献

github.com

おわりに

  • 2022/05/04

 これまでのように独習ノートを作りながら読み進めます。現在は1~3章をまとめ中です。1~3巻を読んでる必要はなさそうですね。

  • 2022/05/26

 3章まで書き終わりました。プログラミングが少なく数式弄りが多くて大変ですね。思ったより時間がかかりました。これから4章に進みます。

  • 2022/06/08

 4章の内容をまとめ終わりました。似通った名前と手法なので色々混乱しましたが、丁寧に本を読み返すとちゃんと解説されていました。本を読みましょう繰り返し何度も、反復が大事です。

  • 2022/11/04

 5章の内容を書き終わりました。収益が Gだったり G_tだったりなど表記がふわふわしてることがあるのですが、読み(書き)終えるまで書き分けている理由が分かりませんでした。どの時刻でも共通する計算では、一般化するため添字を書いていないのだと思います。2周目を読むときに修正できればと思います。あと概ね「計算式の導出」「エージェントの実装」「状態・行動価値関数の推定」の3段階で構成されるのですが、記事によって3つともあったり2つしかなかったりなので、全章を通して統一できるように再構成できればと思います。

  • 2022/11/11

 6章の内容を書き終わりました。これまでの伏線回収感があって解いてて気持ちよかったです。この章ラストのQ学習がメインテーマの入り口の様です。そして次からはいよいよニューラルネットですね。

  • 2022/11/17

 7章の内容を書き終わりました。8割方が3巻の復習だったのでサクっと終わりました。次からがこの本のメインディッシュっぽいですね?