'DDPG' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2026/05 »
일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

Tags more

Archives

Today

Total

관리 메뉴

목록DDPG (3)

qcoding

[AI논문리뷰-강화학습] DDPG - 연속 행동 공간에서 DQN의 아이디어를 Actor-Critic으로 확장한 딥강화학습

논문 Continuous control with deep reinforcement learning 저자 Timothy P. Lillicrap, Jonathan J. Hunt, David Silver et al. (DeepMind) 학회/연도 ICLR 2016 arXiv 1509.02971📄 한 문단 요약DDPG(Deep Deterministic Policy Gradient)는 DeepMind가 2016년 ICLR에 발표한 연속 행동 공간(continuous action space) 강화학습 알고리즘이다. DQN의 세 가지 핵심 아이디어(심층 신경망, Experience Replay, Target Network)를 그대로 계승하되, 이산 행동만 처리하는 Q-learning 대신 Determinis..

AI논문리뷰-강화학습 2026. 5. 1. 14:13

[강화학습] DDPG (Deep Deterministic Policy Gradient)실습_ContinuosMountainCar(2/2)

** 이번 실습은 앞선 글의 DDPG 이론을 Mountain Car 문제에 적용하는 실습이다. MountainCar 문제 중 Continuos Action Space를 갖는 문제에 대해 적용해 볼 것이다. 이번실습에서 진행하는 코드는 아래의 블로그를 참조하여 만들었으며, Mountain Car에 대한 문제는 이전 블로그를 참고하면 자세히 알 수 있다. https://pasus.tistory.com/138 Tensorflow2로 만든 DDPG 코드: Pendulum-v0 OpenAI Gym에서 제공하는 Pendulum-v0 환경을 대상으로 DDPG 알고리즘을 Tensorflow2 코드로 구현하였다. 학습결과는 다음과 같다. DDPG는 오프-폴리시 방법으로서 온-폴리시인 A2C에 비해서 데이터 효율이 pas..

머신러닝 딥러닝 2023. 3. 15. 21:30

[강화학습] DDPG (Deep Deterministic Policy Gradient) 강화학습 (1/2)_이론

* 이번에 살펴볼 내용은 DDPG에 대한 내용이다. DDPG (Deep Deterministic Policy Gradient)의 약어로 "확정적 Policy"를 사용하는 알고리즘이다. 이번에는 글을 2개로 나누어서 작성할 예정이며, 첫번째는 이론을 살펴보고 두번째로 실습을 진행하려고 한다. * 해당 내용은 아래의 유튜브를 보고 참고하여 작성하였습니다. 고려대학교 오승상 교수님의 유튜브인데 설명을 매우 잘해주셔서 이해가 잘되었습니다. 글에서 나오는 PPT는 교수님께서 올려주신 파일의 일부분을 사용하였습니다. https://www.youtube.com/playlist?list=PLvbUC2Zh5oJtYXow4jawpZJ2xBel6vGhC 오승상 강화학습 Deep Reinforcement Learning 고려..

머신러닝 딥러닝 2023. 3. 11. 13:24

Prev 1 Next

목록DDPG (3)

qcoding

티스토리툴바