はじめに
『ゼロから作るDeep Learning 4 ――強化学習編』の独学時のまとめノートです。初学者の補助となるようにゼロつくシリーズの4巻の内容に解説を加えていきます。本と一緒に読んでください。
この記事は、各節の記事のリンクページです。
【前巻の内容】
【今巻の内容】
記事一覧
1章 バンディット問題
真の期待値と推定期待値(標本平均)を計算してグラフで確認します。
簡単なスロットマシン(バンディット)とプレイヤー(エージェント)のクラスを実装して、バンディット問題を解きます。
非定常問題に対応したスロットマシン(バンディット)とプレイヤー(エージェント)のクラスを実装して、非定常バンディット問題を解きます。
2章 マルコフ決定過程
MDPの問題設定を確認します。
3章 ベルマン方程式
基本的な確率の話です。
状態価値関数についてのベルマン方程式を確認します。
行動価値関数についてのベルマン方程式を確認します。
最適な方策を得るための計算を確認します。
4章 動的計画法
2マスのグリッドワールドで反復方策評価を行います。
3×4マスのグリッドワールドのクラスを確認します。
反復方策評価を実装して、状態価値関数を求めます。
方策反復法を実装して、最適方策を求めます。
価値反復法を実装して、最適状態価値関数と最適方策を求めます。
5章 モンテカルロ法
方策オフ型のモンテカルロ法を用いて状態価値関数を推定します。
方策オフ型のモンテカルロ法を用いて行動価値関数を推定します。
方策オン型のモンテカルロ法を用いて行動価値関数を推定します。
6章 TD法
TD法を用いて状態価値関数を推定します。
SARSAを用いて行動価値関数を推定します。
Q学習を用いて行動価値関数を推定します。
7章 ニューラルネットワークとQ学習
DeZeroについては3巻を参照してください。
DeZeroを利用して、ニューラルネットワークを実装します。
ニューラルネットワークを用いてQ学習を実装します。
8章 DQN
gymライブラリを確認します。
DQNを実装して学習します。
この続きを自分で実装してみたくちょっと調べてます。
9章 方策勾配法
ちょっと待って。
参考文献
おわりに
- 2022/05/04
これまでのように独習ノートを作りながら読み進めます。現在は1~3章をまとめ中です。1~3巻を読んでる必要はなさそうですね。
- 2022/05/26
3章まで書き終わりました。プログラミングが少なく数式弄りが多くて大変ですね。思ったより時間がかかりました。これから4章に進みます。
- 2022/06/08
4章の内容をまとめ終わりました。似通った名前と手法なので色々混乱しましたが、丁寧に本を読み返すとちゃんと解説されていました。本を読みましょう繰り返し何度も、反復が大事です。
- 2022/11/04
5章の内容を書き終わりました。収益がだったりだったりなど表記がふわふわしてることがあるのですが、読み(書き)終えるまで書き分けている理由が分かりませんでした。どの時刻でも共通する計算では、一般化するため添字を書いていないのだと思います。2周目を読むときに修正できればと思います。あと概ね「計算式の導出」「エージェントの実装」「状態・行動価値関数の推定」の3段階で構成されるのですが、記事によって3つともあったり2つしかなかったりなので、全章を通して統一できるように再構成できればと思います。
- 2022/11/11
6章の内容を書き終わりました。これまでの伏線回収感があって解いてて気持ちよかったです。この章ラストのQ学習がメインテーマの入り口の様です。そして次からはいよいよニューラルネットですね。
- 2022/11/17
7章の内容を書き終わりました。8割方が3巻の復習だったのでサクっと終わりました。次からがこの本のメインディッシュっぽいですね?