태그 보관물: Richard S. Sutton

Spinning Up in Deep RL

OpenAI에서 강화 학습 교육 자료인 스피닝 업(Spinning Up)을 공개했습니다. 깃허브에서 관련 코드도 같이 제공됩니다. 아래 알고리즘 트리 중에서 스피닝 업에서 다루는 것은 Policy Gradient, PPO, TRPO, DDPG, TD3, SAC입니다.

rl_alg.tree.png

OpenAI에서 스피닝 업을 만들게 된 이유가 강화 학습을 배우기 위한 적절한 자료가 없기 때문이라고 합니다. 곰곰히 생각해 보면 일리가 있습니다. 딥러닝 관련되어서는 좋은 책과 온라인 자료를 쉽게 찾을 수 있지만 강화 학습은 많이 부족합니다. <핸즈온 머신러닝> 16장에서 강화 학습을 다루고 있지만 제한된 범위입니다. 서튼(Sutton) 교수의 <Reinforcement Learning: An Introduction> 2판이 곧 출간될 예정입니다. 이 책은 강화 학습의 대표적인 텍스트 북입니다. 조금 더 핸즈온 스타일의 강화 학습 책으로는 어떤 것이 있는지 찾아 보았습니다.

71y3a2bdjf3l  zai-drl-meap-hi  morales_drl_hiresmeap

맥심 라판(Maxim Lapan)이 쓴 팩킷(Packt)의 <Deep Reinforcement Learning Hands-On>이 아마존에서 독자 반응이 좋습니다. 이 책은 DQN, Policy Gradient, A2C, A3C, TRPO, PPO, I2A, AlphaGo Zero 등을 다룹니다.

매닝에서는 <Deep Reinforcement Learning In Action>과 <Grokking Deep Reinforcement Learning>이 준비되고 있습니다. 매닝 책은 출간되려면 아직 한참 기다려야 할 것 같네요. 재미있게도 이 세 책은 모두 파이토치를 사용합니다. 🙂

**Complete Draft** Reinforcement Learning: An Introduction

리차드 서튼Richard Sutton 교수의 강화학습 책 “Reinforcement Learning: An Introduction”의 2판의 드래프트가 끝났다는 소식입니다. 이 책은 온라인에서 무료로 읽을 수 있습니다. 이 책은 총 449페이지이고 파일 사이즈는 16M 정도로 아주 크지 않지만 혹시 네트워크가 느릴 경우를 대비해 블로그에 다운로드 링크(bookdraft2017nov5)를 추가했습니다.

다음은 전체 책의 목차입니다.

  1. Introduction
  2. Multi-armed Bandits
  3. Finite Markov Decision Processes
  4. Dynamic Programming
  5. Monte Carlo Methods
  6. Temporal-Difference Learning
  7. n-step Bootstrapping
  8. Planning and Learning with Tabular Methods
  9. On-policy Prediction with Approximation
  10. On-policy Control with Approximation
  11. *Off-policy Methods with Approximation
  12. Eligibility Traces
  13. Policy Gradient Methods
  14. Psychology
  15. Neuroscience
  16. Applications and Case Studies
  17. Frontiers

(업데이트) 2018년 1월 1일에 마이너한 업데이트가 있었던 것 같습니다. 새로운 PDF를 참고하세요.

모두연의 강화학습 튜토리얼

모두의연구소 이웅원님이 만드신 강화학습(reinforcement learning) 튜토리얼이 깃북으로 공개되었습니다. 이 튜토리얼은 무려 160여 페이지 분량입니다. 한글로 된 강화학습 자료가 많지 않은 가운데 이런 자료가 공개되어 매우 반갑네요. 이 튜토리얼은 데이빗 실버(David Silver) 교수의 강의와 리처드 서튼(Richard S. Sutton) 교수의 ‘Introduction to Reinforcement Learning‘ 책, 유다시티(Udacity)의 강화학습 강의등을 참고했다고 합니다.

참고로 데이빗 실버 교수의 강의는 유튜브에서 볼 수 있으며 리처드 서튼 교수의 Introduction to Reinforcement Learning 책은 2판을 무료로 드롭박스에서 읽을 수 있습니다. 2판은 2012년 부터 쓰여져서 최근까지 마무리 작업이 진행되었는데 지금은 거의 완결된 상태입니다. pdf 버전은 여기서 다운 받을 수 있습니다.

(업데이트) Reinforcement Learning: An Introduction 의 새로운 드래프트가 공개되었습니다. 이 버전은 2016년 9월 입니다.