からっぽのしょこ

読んだら書く！書いたら読む！同じ事は二度調べ(たく)ない

『ゼロから作るDeep Learning 4』の学習ノート：記事一覧

攻略ノート攻略ノート-ゼロつく4 深層学習強化学習一覧ページ

はじめに

　『ゼロから作るDeep Learning 4 ――強化学習編』の独学時のまとめノートです。初学者の補助となるようにゼロつくシリーズの4巻の内容に解説を加えていきます。本と一緒に読んでください。

　この記事は、各節の記事のリンクページです。

【前巻の内容】

www.anarchive-beta.com

【今巻の内容】

はじめに
記事一覧
参考文献
おわりに

記事一覧

1章バンディット問題

　真の期待値と推定期待値(標本平均)を計算してグラフで確認します。

www.anarchive-beta.com

　簡単なスロットマシン(バンディット)とプレイヤー(エージェント)のクラスを実装して、バンディット問題を解きます。

www.anarchive-beta.com

www.anarchive-beta.com

www.anarchive-beta.com

　非定常問題に対応したスロットマシン(バンディット)とプレイヤー(エージェント)のクラスを実装して、非定常バンディット問題を解きます。

www.anarchive-beta.com

www.anarchive-beta.com

www.anarchive-beta.com

2章マルコフ決定過程

　MDPの問題設定を確認します。

www.anarchive-beta.com

www.anarchive-beta.com

3章ベルマン方程式

　基本的な確率の話です。

www.anarchive-beta.com

　状態価値関数についてのベルマン方程式を確認します。

www.anarchive-beta.com

www.anarchive-beta.com

　行動価値関数についてのベルマン方程式を確認します。

www.anarchive-beta.com

www.anarchive-beta.com

　最適な方策を得るための計算を確認します。

www.anarchive-beta.com

www.anarchive-beta.com

www.anarchive-beta.com

4章動的計画法

　2マスのグリッドワールドで反復方策評価を行います。

www.anarchive-beta.com

　3×4マスのグリッドワールドのクラスを確認します。

www.anarchive-beta.com

www.anarchive-beta.com

　反復方策評価を実装して、状態価値関数を求めます。

www.anarchive-beta.com

　方策反復法を実装して、最適方策を求めます。

www.anarchive-beta.com

www.anarchive-beta.com

　価値反復法を実装して、最適状態価値関数と最適方策を求めます。

www.anarchive-beta.com

www.anarchive-beta.com

5章モンテカルロ法

　方策オフ型のモンテカルロ法を用いて状態価値関数を推定します。

www.anarchive-beta.com

www.anarchive-beta.com

　方策オフ型のモンテカルロ法を用いて行動価値関数を推定します。

www.anarchive-beta.com

www.anarchive-beta.com

　方策オン型のモンテカルロ法を用いて行動価値関数を推定します。

www.anarchive-beta.com

www.anarchive-beta.com

6章 TD法

　TD法を用いて状態価値関数を推定します。

www.anarchive-beta.com

　SARSAを用いて行動価値関数を推定します。

www.anarchive-beta.com

www.anarchive-beta.com

　Q学習を用いて行動価値関数を推定します。

www.anarchive-beta.com

www.anarchive-beta.com

7章ニューラルネットワークとQ学習

　DeZeroについては3巻を参照してください。

www.anarchive-beta.com

　DeZeroを利用して、ニューラルネットワークを実装します。

www.anarchive-beta.com

www.anarchive-beta.com

www.anarchive-beta.com

www.anarchive-beta.com

　ニューラルネットワークを用いてQ学習を実装します。

www.anarchive-beta.com

8章 DQN

　gymライブラリを確認します。

www.anarchive-beta.com

　DQNを実装して学習します。

www.anarchive-beta.com

この続きを自分で実装してみたくちょっと調べてます。

9章方策勾配法

ちょっと待って。

参考文献

斎藤康毅『ゼロから作るDeep Learning 4 ――強化学習編』オライリー・ジャパン,2022年.
サポートページ：GitHub - oreilly-japan/deep-learning-from-scratch-4

おわりに

2022/05/04

　これまでのように独習ノートを作りながら読み進めます。現在は1～3章をまとめ中です。1～3巻を読んでる必要はなさそうですね。

2022/05/26

　3章まで書き終わりました。プログラミングが少なく数式弄りが多くて大変ですね。思ったより時間がかかりました。これから4章に進みます。

2022/06/08

　4章の内容をまとめ終わりました。似通った名前と手法なので色々混乱しましたが、丁寧に本を読み返すとちゃんと解説されていました。本を読みましょう繰り返し何度も、反復が大事です。

2022/11/04

　5章の内容を書き終わりました。収益が $G$ だったり $G_t$ だったりなど表記がふわふわしてることがあるのですが、読み(書き)終えるまで書き分けている理由が分かりませんでした。どの時刻でも共通する計算では、一般化するため添字を書いていないのだと思います。2周目を読むときに修正できればと思います。あと概ね「計算式の導出」「エージェントの実装」「状態・行動価値関数の推定」の3段階で構成されるのですが、記事によって3つともあったり2つしかなかったりなので、全章を通して統一できるように再構成できればと思います。

2022/11/11

　6章の内容を書き終わりました。これまでの伏線回収感があって解いてて気持ちよかったです。この章ラストのQ学習がメインテーマの入り口の様です。そして次からはいよいよニューラルネットですね。

2022/11/17

　7章の内容を書き終わりました。8割方が3巻の復習だったのでサクっと終わりました。次からがこの本のメインディッシュっぽいですね？