2020-03-30

OpenAIのかくれんぼ強化学習の論文を読んだ

f:id:pira_nino:20200330173129p:plain

論文: Emergent Tool Use from Multi-Agent Interaction

昨年 2019/09/17にOprnAIが出したかくれんぼ(hide and seek)強化学習論文を読んだので、備忘がてらブログにメモ。
メモなので、正確に書いていないことだけはご了承ください。。。
タイトルは"Emergent Tool Use from Multi-Agent Interaction" という論文。
かわいいagent君達がかくれんぼを学習していく様子からは想像つかないタイトルですね(小並)

論文: Emergent Tool Use from Multi-Agent Interaction

(余談) 白金鉱業fmのコンンツのために読んだ

アブスト

1. イントロダクション

近年の強化学習の取り組みの限界

本研究では、、、

転移学習 / fine-tuning

本研究のコントリビューション

2. 関連研究

3. かくれんぼのタスク説明

かくれんぼの設定

環境設定

4. 方策の最適化

5.自動カリキュラムと創発的行動

6. 評価

vs 内発的報酬

かくれんぼを事前学習とし、新しいタスクにfine-tune

7. ディスカッション / 今後の課題

論文を読んでみて感想

あくまでも私の経験

強化学習基礎系

[Qiita] DQN（Deep Q Network）を理解したので、Gopherくんの図を使って説明

[書籍]これからの強化学習

[pdf] (小南さん作成) 強化学習入門

[pdf] (通称) Sutton本第2版

[書籍] 機械学習スタートアップシリーズ Pythonで学ぶ強化学習

[ブログ]強化学習

もう少し強化学習を詳しく知りたい系の人へ

[書籍]速習 強化学習

[書籍]強化学習

[論文]Deep Learning for Video Game Playing

[動画]UCL Course on RL

DQN系

[pdf]DQNからRainbowまで 〜深層強化学習の最新動向〜

[論文]DQNの論文

Rainbowを構成する要素の論文

[論文]Deep Reinforcement Learning with Double Q-learning

[論文]Dueling Network Architectures for Deep Reinforcement Learning

[論文]Multi-step Reinforcement Learning: A Unifying Algorithm

[論文]Noisy Networks for Exploration

[論文]Prioritized Experience Replay

[論文]A Distributional Perspective on Reinforcement Learning

[論文]Rainbow: Combining Improvements in Deep Reinforcement Learning

方策勾配系

[論文]Deterministic Policy Gradient Algorithms

[論文]Continuous control with deep reinforcement learning

[論文]Trust Region Policy Optimization

[論文]Proximal Policy Optimization Algorithms

実装

[github]Open AI Baselines

[github]Denny Britzさんの実装例

[github]keras-rl

環境

[github]Open AI Gym

[サイト]mujoco

[giithub]pybullet-gym

[github]procgen

みんな大好きDeep Mind / Open AI

[サイト]Deep Mind / Open AI

[論文]Emergence of Locomotion Behaviours in Rich Environments

[論文]Mastering Chess and Shogi by Self-Play with a General Reinforcement Learning Algorithm

[論文]Emergent Tool Use from Multi-Agent Interaction

[論文]Solving Rubik’s Cube with a Robot Hand

[論文] Dota 2 with Large Scale Deep Reinforcement Learning

[サイト]OpenAI→PyTorch

その他個人的に好きなリンク

[論文]拡張されうる行動空間での特徴の表現学習を伴う価値関数の近似

[論文]Efficient Neural Architecture Search via Parameter Sharing

[論文]Go-Explore: a New Approach for Hard-Exploration Problems

[論文]Asynchronous Methods for Deep Reinforcement Learning

[論文]分散学習系(Gorilla -> Ape-X -> R2D2 -> R2D3)

最後に

[書籍] 機械学習スタートアップシリーズ　Pythonで学ぶ強化学習

[書籍]速習強化学習

[pdf]DQNからRainbowまで〜深層強化学習の最新動向〜