こんにちは。nino_piraです。
先日、強化学習の資料の引用ツイートをしましたら、それなりに伸びたので、「もしかして、みんな強化学習に興味ある！？」と思い自分が読んだ&好きな資料をまとめてます。
また、ブログを書いているうちに「何を持って基礎とするか」などカテゴライズも自分の中でも行方不明になっていましたので、色々思うところはあると思いますが、暖かい目で読んで頂ければ幸いです。。。。

あくまでも私の経験
強化学習基礎系
もう少し強化学習を詳しく知りたい系の人へ
DQN系
- [pdf]DQNからRainbowまで〜深層強化学習の最新動向〜
- [論文]DQNの論文
Rainbowを構成する要素の論文
方策勾配系
実装
環境
みんな大好きDeep Mind / Open AI
その他個人的に好きなリンク
最後に

あくまでも私の経験

よくある初心者入門資料とかではなく、あくまでも自分が読んだ&好きな資料であることはご容赦ください。
加えて、分散学習系の話はちょっと苦手など、網羅的ではない点もご容赦ください、、、、

強化学習基礎系

これ読めば、強化学習の登場人物(state, action, reward) / ベルマン方程式 / Q学習/ 方策勾配...などの単語の理解ができる系の資料達です。

[Qiita] DQN（Deep Q Network）を理解したので、Gopherくんの図を使って説明

わかりやすい。キャッチーな説明なのでとっかかりやすいと思う。
初めの一歩としては参考になると思います。

qiita.com

[書籍]これからの強化学習

日本語の書籍では、一番基礎から丁寧に追っている本だと思います。
第1章　強化学習の基礎的理論を読むだけで十分だと思います。2章はMUSTではないと思います。

www.morikita.co.jp

[pdf] (小南さん作成) 強化学習入門

よくこここまで綺麗に、日本語で資料をまとめてくれたなぁと思います（脱帽）。
7章の深層強化学習までの6章までを何回も往復して読み込むべき資料だと思います。 github.com

[pdf] (通称) Sutton本第2版

個人的には、原点にして頂点だと思っています。
ただ、英語である点やSutton先生の独特な言い回しなど少しトリッキーな点があります。しかし、個人的にはMUSTな資料だと思います。なお、第1版は日本語で書籍化されていますが、第2版で大幅updateされているので、是非第2版の無料pdfを読んでください。

http://incompleteideas.net/book/bookdraft2017nov5.pdf

[書籍] 機械学習スタートアップシリーズ　Pythonで学ぶ強化学習

個人的には最高の一冊。実践に寄った網羅的な本。
コード例がたくさん載っているので、数式 →具体的な処理を知りたい方にはオススメ。
個人的には、この本の発売時点である程度強化学習を理解していたので、知識の追い打ちとして凄くタメになりました。
もちろん実装だけではなく、理論面もMDPから最新の深層強化学習の話までの流れが丁寧で非常に良書だと思います。
こちらもMUSTな一冊です。

bookclub.kodansha.co.jp

[ブログ]強化学習

初めてこのブログを見たときには衝撃を受けました（脱帽）。。。
マルコフ決定過程（MDP）から最近の深層強化学習まで網羅的によくまとまっています。
このブログを見て「なるほど。理解。」となれば強化学習をある程度知っていると言っても問題ないと思います。

yagami12.hatenablog.com

もう少し強化学習を詳しく知りたい系の人へ

[書籍]速習強化学習

むずい笑。先輩に「これ読めば強化学習完全に理解できるよ」と初手で渡されたけど、3ページ読むと1日が終わるハードモードであった。
最近はようやく読めるようになってきました。苦笑
数学を得意とする人が読むと、実は読みやすいのかもしれません汗

www.kyoritsu-pub.co.jp

[書籍]強化学習

ちゃんと数式を追っていて個人的には好きです。
強化学習の基礎的な概念を掴んだ後に読んでみると良いと思います。 www.kspub.co.jp

[論文]Deep Learning for Video Game Playing

ゲーム(主にatari)への深層強化学習の発展のまとめ的な論文。手法の発展がアプローチごとに色分けされてまとめられたこの図が好き。 f:id:pira_nino:20200127204022p:plain

あくまでも私の経験

強化学習基礎系

[Qiita] DQN（Deep Q Network）を理解したので、Gopherくんの図を使って説明

[書籍]これからの強化学習

[pdf] (小南さん作成) 強化学習入門

[pdf] (通称) Sutton本第2版

[書籍] 機械学習スタートアップシリーズ Pythonで学ぶ強化学習

[ブログ]強化学習

もう少し強化学習を詳しく知りたい系の人へ

[書籍]速習 強化学習

[書籍]強化学習

[論文]Deep Learning for Video Game Playing

[動画]UCL Course on RL

DQN系

[pdf]DQNからRainbowまで 〜深層強化学習の最新動向〜

[論文]DQNの論文

Rainbowを構成する要素の論文

[論文]Deep Reinforcement Learning with Double Q-learning

[論文]Dueling Network Architectures for Deep Reinforcement Learning

[論文]Multi-step Reinforcement Learning: A Unifying Algorithm

[論文]Noisy Networks for Exploration

[論文]Prioritized Experience Replay

[論文]A Distributional Perspective on Reinforcement Learning

[論文]Rainbow: Combining Improvements in Deep Reinforcement Learning

方策勾配系

[論文]Deterministic Policy Gradient Algorithms

[論文]Continuous control with deep reinforcement learning

[論文]Trust Region Policy Optimization

[論文]Proximal Policy Optimization Algorithms

実装

[github]Open AI Baselines

[github]Denny Britzさんの実装例

[github]keras-rl

環境

[github]Open AI Gym

[サイト]mujoco

[giithub]pybullet-gym

[github]procgen

みんな大好きDeep Mind / Open AI

[サイト]Deep Mind / Open AI

[論文]Emergence of Locomotion Behaviours in Rich Environments

[論文]Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm

[論文]Emergent Tool Use from Multi-Agent Interaction

[論文]Solving Rubik’s Cube with a Robot Hand

[論文] Dota 2 with Large Scale Deep Reinforcement Learning

[サイト]OpenAI→PyTorch

その他個人的に好きなリンク

[論文]拡張されうる行動空間での特徴の表現学習を伴う価値関数の近似

[論文]Efficient Neural Architecture Search via Parameter Sharing

[論文]Go-Explore: a New Approach for Hard-Exploration Problems

[論文]Asynchronous Methods for Deep Reinforcement Learning

[論文]分散学習系(Gorilla -> Ape-X -> R2D2 -> R2D3)

最後に

[書籍] 機械学習スタートアップシリーズ　Pythonで学ぶ強化学習

[書籍]速習強化学習

[pdf]DQNからRainbowまで〜深層強化学習の最新動向〜