'ActorCritic' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2026/05 »
일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

Tags more

Archives

Today

Total

관리 메뉴

목록ActorCritic (3)

qcoding

[AI논문리뷰-강화학습] A3C - Experience Replay 없이 멀티스레드 병렬 학습으로 Atari 최고 성능을 달성한 비동기 강화학습

논문 Asynchronous Methods for Deep Reinforcement Learning 저자 Volodymyr Mnih, Alex Graves, David Silver et al. (DeepMind) 학회/연도 ICML 2016 arXiv 1602.01783📄 한 문단 요약A3C(Asynchronous Advantage Actor-Critic)는 DeepMind가 2016년 ICML에 발표한 딥강화학습 프레임워크다. 핵심 아이디어는 단순하다. GPU와 Experience Replay 없이, 16개 CPU 스레드에서 각자 독립적인 환경을 실행하는 Actor-Learner들이 비동기적으로 공유 신경망을 업데이트한다. 병렬 실행으로 경험 데이터 간의 시간 상관관계가 자연스럽게 제거되어 R..

AI논문리뷰-강화학습 2026. 5. 1. 14:32

[AI논문리뷰-강화학습] DDPG - 연속 행동 공간에서 DQN의 아이디어를 Actor-Critic으로 확장한 딥강화학습

논문 Continuous control with deep reinforcement learning 저자 Timothy P. Lillicrap, Jonathan J. Hunt, David Silver et al. (DeepMind) 학회/연도 ICLR 2016 arXiv 1509.02971📄 한 문단 요약DDPG(Deep Deterministic Policy Gradient)는 DeepMind가 2016년 ICLR에 발표한 연속 행동 공간(continuous action space) 강화학습 알고리즘이다. DQN의 세 가지 핵심 아이디어(심층 신경망, Experience Replay, Target Network)를 그대로 계승하되, 이산 행동만 처리하는 Q-learning 대신 Determinis..

AI논문리뷰-강화학습 2026. 5. 1. 14:13

[강화학습]A2C (Actor-Critic)CartPole_Mountain Car 문제

* 이번 실습에서는 Actor-Critic 알고리즘을 통해 Mountain Car 문제를 해결해 보는 시간으로 Reinforce 알고리즘을 통해 Mountain Car 문제가 해결되지 않았으므로 이방법을 통해서 해결이 가능한 지 확인해 보는 Policy Based의 연장선이다. Actor-critc은 value / policy 학습을 둘 다 진행하는 것으로 인공신경망을 통해 가치함수와 정책함수를 둘다 근사하는 것이 특징이다. * 결론부터 말하면 Cartpole은 잘되지만, 역시나 Mountain Car은 잘되지 않았다. 이번실습은 아래와 같은 순서로 진행된다. 1. A2C 에 대한 간략한 이론 2. A2C의 알고리즘 구조 3. A2C CartPole / Mountain car 코드 및 리뷰 4. 평가결과..

머신러닝 딥러닝 2023. 2. 11. 16:49

Prev 1 Next

목록ActorCritic (3)

qcoding

티스토리툴바