| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | |||||
| 3 | 4 | 5 | 6 | 7 | 8 | 9 |
| 10 | 11 | 12 | 13 | 14 | 15 | 16 |
| 17 | 18 | 19 | 20 | 21 | 22 | 23 |
| 24 | 25 | 26 | 27 | 28 | 29 | 30 |
| 31 |
- coding
- 강화학습 기초
- selenium
- 강화학습
- clone coding
- expo
- 클론코딩
- 논문리뷰
- TTS
- 음성합성
- 데이터분석
- JavaScript
- Ai
- python
- 카트폴
- ReactNative
- FirebaseV9
- TeachagleMachine
- 사이드프로젝트
- 딥러닝
- Reinforcement Learning
- 앱개발
- 전국국밥
- Instagrame clone
- 머신러닝
- DeepMind
- Ros
- pandas
- App
- React
- Today
- Total
목록ATARI (3)
qcoding
논문 Mastering Atari with Discrete World Models 저자 Hafner et al. (Google Research / DeepMind) 학회/연도 ICLR 2021 arXiv 2010.02193📄 한 문단 요약DreamerV2는 ICLR 2021에 발표된 Dreamer의 직접 후속으로, 연속 잠재 변수(Gaussian) 대신 32×32 범주형(categorical) 잠재 변수와 KL 균형(KL balancing)을 도입해 이산 행동 공간인 Atari로 확장했다. 단일 GPU에서 200M 환경 스텝, 468억 개의 상상 상태를 학습해 55개 Atari 게임의 게이머 정규화 중간값에서 Rainbow를 능가하고 인간 수준 성능을 달성했다. 연속 제어 전용이었던 Dreame..
논문 Asynchronous Methods for Deep Reinforcement Learning 저자 Volodymyr Mnih, Alex Graves, David Silver et al. (DeepMind) 학회/연도 ICML 2016 arXiv 1602.01783📄 한 문단 요약A3C(Asynchronous Advantage Actor-Critic)는 DeepMind가 2016년 ICML에 발표한 딥강화학습 프레임워크다. 핵심 아이디어는 단순하다. GPU와 Experience Replay 없이, 16개 CPU 스레드에서 각자 독립적인 환경을 실행하는 Actor-Learner들이 비동기적으로 공유 신경망을 업데이트한다. 병렬 실행으로 경험 데이터 간의 시간 상관관계가 자연스럽게 제거되어 R..
논문 Human-level control through deep reinforcement learning 저자 Volodymyr Mnih, Koray Kavukcuoglu, David Silver et al. (DeepMind) 학회/연도 Nature 2015 프리프린트 arXiv:1312.5602 원문 Nature 14236📄 한 문단 요약DQN(Deep Q-Network)은 DeepMind가 2015년 Nature에 발표한 딥강화학습 알고리즘으로, 원시 픽셀 입력만으로 Atari 2600 게임 49개를 학습해 그 중 29개에서 인간 플레이어 수준을 초과한 최초의 시스템이다. 핵심 기여는 두 가지다. 첫째, Experience Replay: 에이전트의 경험 (s, a, r, s')을 100만..