| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | |||||
| 3 | 4 | 5 | 6 | 7 | 8 | 9 |
| 10 | 11 | 12 | 13 | 14 | 15 | 16 |
| 17 | 18 | 19 | 20 | 21 | 22 | 23 |
| 24 | 25 | 26 | 27 | 28 | 29 | 30 |
| 31 |
- clone coding
- TTS
- coding
- Ai
- DeepMind
- python
- Instagrame clone
- expo
- TeachagleMachine
- 논문리뷰
- 머신러닝
- Reinforcement Learning
- Ros
- 강화학습
- 앱개발
- 카트폴
- ReactNative
- selenium
- 데이터분석
- 전국국밥
- 딥러닝
- 강화학습 기초
- FirebaseV9
- App
- 음성합성
- pandas
- 클론코딩
- 사이드프로젝트
- JavaScript
- React
- Today
- Total
목록ActorCritic (3)
qcoding
논문 Asynchronous Methods for Deep Reinforcement Learning 저자 Volodymyr Mnih, Alex Graves, David Silver et al. (DeepMind) 학회/연도 ICML 2016 arXiv 1602.01783📄 한 문단 요약A3C(Asynchronous Advantage Actor-Critic)는 DeepMind가 2016년 ICML에 발표한 딥강화학습 프레임워크다. 핵심 아이디어는 단순하다. GPU와 Experience Replay 없이, 16개 CPU 스레드에서 각자 독립적인 환경을 실행하는 Actor-Learner들이 비동기적으로 공유 신경망을 업데이트한다. 병렬 실행으로 경험 데이터 간의 시간 상관관계가 자연스럽게 제거되어 R..
논문 Continuous control with deep reinforcement learning 저자 Timothy P. Lillicrap, Jonathan J. Hunt, David Silver et al. (DeepMind) 학회/연도 ICLR 2016 arXiv 1509.02971📄 한 문단 요약DDPG(Deep Deterministic Policy Gradient)는 DeepMind가 2016년 ICLR에 발표한 연속 행동 공간(continuous action space) 강화학습 알고리즘이다. DQN의 세 가지 핵심 아이디어(심층 신경망, Experience Replay, Target Network)를 그대로 계승하되, 이산 행동만 처리하는 Q-learning 대신 Determinis..
* 이번 실습에서는 Actor-Critic 알고리즘을 통해 Mountain Car 문제를 해결해 보는 시간으로 Reinforce 알고리즘을 통해 Mountain Car 문제가 해결되지 않았으므로 이방법을 통해서 해결이 가능한 지 확인해 보는 Policy Based의 연장선이다. Actor-critc은 value / policy 학습을 둘 다 진행하는 것으로 인공신경망을 통해 가치함수와 정책함수를 둘다 근사하는 것이 특징이다. * 결론부터 말하면 Cartpole은 잘되지만, 역시나 Mountain Car은 잘되지 않았다. 이번실습은 아래와 같은 순서로 진행된다. 1. A2C 에 대한 간략한 이론 2. A2C의 알고리즘 구조 3. A2C CartPole / Mountain car 코드 및 리뷰 4. 평가결과..