| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | ||||||
| 2 | 3 | 4 | 5 | 6 | 7 | 8 |
| 9 | 10 | 11 | 12 | 13 | 14 | 15 |
| 16 | 17 | 18 | 19 | 20 | 21 | 22 |
| 23 | 24 | 25 | 26 | 27 | 28 | 29 |
| 30 |
- FirebaseV9
- clone coding
- TeachagleMachine
- 카트폴
- Ros
- 앱개발
- 딥러닝
- 강화학습
- Instagrame clone
- 리액트네이티브
- expo
- selenium
- 강화학습 기초
- ReactNative
- redux
- JavaScript
- 조코딩
- 데이터분석
- 전국국밥
- Reinforcement Learning
- 클론코딩
- GYM
- coding
- 사이드프로젝트
- App
- React
- pandas
- python
- kaggle
- 머신러닝
- Today
- Total
목록reinforce (2)
qcoding
9. 정책 기반 방법 (Policy Gradient) 가치기반(Q) 방법이 “가치를 올리며 탐욕적 행동”에 의존한다면, 정책 기반(Policy Gradient)은 “정책 그 자체”를 매개변수화해 곧바로 최적화를 시도합니다.9-1. REINFORCE 알고리즘Montezuma’s Revenge처럼 희소 · 고차원 보상 환경에서, 미끄러운 Q 값 추정 대신 정책 확률 $\pi_\theta(a\mid s)$ 를 직접 조정하는 접근입니다. $$\nabla_\theta J(\theta)= \mathbb{E}_{\pi_\theta}\!\bigl[ G_t \,\nabla_\theta \log\pi_\theta(A_t\mid S_t) \bigr] \quad\tex..
* 이번에 진행할 학습은 Policy Gradient 방법의 기본적인 Reinforce 알고리즘을 통해 Cartpole 문제를 해결하는 것이다. 이번글에서 정리할 주된 내용은 Policy Gradient를 구현하고, Catpole 문제를 해결하는 코드와 Mountain Car 문제에 적용하였을 때, 문제가 해결되지 않았는 데 그 이유를 한번 고민해보는 과정이다. 카트폴에 대한 문제 이해는 이전에 썻던 글을 참고 하면 도움이 될 것 같다. 2023.01.14 - [머신러닝 딥러닝] - [강화학습]Cartpole(카트폴) Deep Q-learning (Dqn) 실습 [강화학습]Cartpole(카트폴) Deep Q-learning (Dqn) 실습 [Deep Q-learning] * 이번실습은 강화학습 실습으로..