태그 보관물: David Silver

모두연의 강화학습 튜토리얼

모두의연구소 이웅원님이 만드신 강화학습(reinforcement learning) 튜토리얼이 깃북으로 공개되었습니다. 이 튜토리얼은 무려 160여 페이지 분량입니다. 한글로 된 강화학습 자료가 많지 않은 가운데 이런 자료가 공개되어 매우 반갑네요. 이 튜토리얼은 데이빗 실버(David Silver) 교수의 강의와 리처드 서튼(Richard S. Sutton) 교수의 ‘Introduction to Reinforcement Learning‘ 책, 유다시티(Udacity)의 강화학습 강의등을 참고했다고 합니다.

참고로 데이빗 실버 교수의 강의는 유튜브에서 볼 수 있으며 리처드 서튼 교수의 Introduction to Reinforcement Learning 책은 2판을 무료로 드롭박스에서 읽을 수 있습니다. 2판은 2012년 부터 쓰여져서 최근까지 마무리 작업이 진행되었는데 지금은 거의 완결된 상태입니다. pdf 버전은 여기서 다운 받을 수 있습니다.

(업데이트) Reinforcement Learning: An Introduction 의 새로운 드래프트가 공개되었습니다. 이 버전은 2016년 9월 입니다.

ICML 2016 Started

ICML 2016이 미국 뉴욕에서 시작되었습니다. OpenAI의 Greg Brockman, 스탠포드 비전랩의 Andrej Karpathy, 세일즈포스의 Richard Socher, 딥마인드의 David Silver 등 속속 주말에 뉴욕에 도착했다고 합니다.

ICML 튜토리얼은 컨퍼런스 후에 동영상이 모두 공개될 예정이며 메인 컨퍼런스는 techtalks에서 중계를 한다고 합니다. 먼저 몇몇 튜토리얼의 슬라이드 자료 입니다. 자료가 공개되면 업데이트 하도록 하겠습니다.

Deep Reinforcement Learning David Silver (Google DeepMind) [slides1] [slides2] (구글 딥마인드 홈페이지에 블로그가 생겼습니다. 첫 글이 David Silver의 강화학습이네요. 같이 보면 좋을 것 같습니다)

Deep Residual Networks: Deep Learning Gets Way Deeper Kaiming He (Facebook) [slides]

Causal inference for observational studies David Sontag and Uri Shalit (New York University) [slides]

Stochastic Gradient Methods for Large-Scale Machine Learning Leon Bottou (Facebook AI Research), Frank E. Curtis (Lehigh University), and Jorge Nocedal (Northwestern University) [slides1] [slides2] [slides3]

Graph Sketching, Streaming, and Space-Efficient Optimization
Sudipto Guha (University of Pennsylvania) and Andrew McGregor (University of Massachusetts Amherst) [slides1] [slides2]

(추가) ICML 2016의 베스트 페이퍼로 3개의 페이퍼가 선정되었습니다. 그 중에 두개가 구글 딥마인드 팀이네요.

(업데이트) techtalks.tv에 ICML의 튜토리얼공식 토크(Plenary Talk)의 동영상이 올라왔습니다.