'cartpole' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2026/05 »
일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

Tags more

Archives

Today

Total

관리 메뉴

목록cartpole (2)

qcoding

[강화학습]A3C_Discrete환경_Cartpole_Mountain_car

* 이번 실습은 A3C (Asynchronous Advantage Actor-Critic)에 대한 실습내용이다. 실습의 적용은 Cartpole과 Mountain Car에 적용하였으며, 결론적으로 Cartpole의 환경에서만 문제를 해결하였다. 현재까지 실습을 진행한 알고리즘을 정리하면 - > value_based (dqn) -> Policy_based (Reinforce / TD1step - A2C / TD1step - Continuos A2C ) 이며, Mountain Car 환경이 성공한 것은 off-policy value_based인 dqn 알고리즘이다. Mountain car와 같이 즉각적인 보상이 아닌 goal에 도착했을 때 큰 보상을 얻는 환경의 경우 on-policy알고리즘으로 action을..

머신러닝 딥러닝 2023. 2. 24. 11:32

[강화학습]A2C (Actor-Critic)CartPole_Mountain Car 문제

* 이번 실습에서는 Actor-Critic 알고리즘을 통해 Mountain Car 문제를 해결해 보는 시간으로 Reinforce 알고리즘을 통해 Mountain Car 문제가 해결되지 않았으므로 이방법을 통해서 해결이 가능한 지 확인해 보는 Policy Based의 연장선이다. Actor-critc은 value / policy 학습을 둘 다 진행하는 것으로 인공신경망을 통해 가치함수와 정책함수를 둘다 근사하는 것이 특징이다. * 결론부터 말하면 Cartpole은 잘되지만, 역시나 Mountain Car은 잘되지 않았다. 이번실습은 아래와 같은 순서로 진행된다. 1. A2C 에 대한 간략한 이론 2. A2C의 알고리즘 구조 3. A2C CartPole / Mountain car 코드 및 리뷰 4. 평가결과..

머신러닝 딥러닝 2023. 2. 11. 16:49

Prev 1 Next

목록cartpole (2)

qcoding

티스토리툴바