반응형
Notice
Recent Posts
Recent Comments
Link
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 | 31 |
Tags
- 앱개발
- python
- TeachagleMachine
- 딥러닝
- clone coding
- 강화학습
- 전국국밥
- 머신러닝
- JavaScript
- redux
- GYM
- coding
- 리액트네이티브
- selenium
- ReactNative
- App
- 클론코딩
- 사이드프로젝트
- 데이터분석
- expo
- Instagrame clone
- kaggle
- Ros
- 조코딩
- Reinforcement Learning
- pandas
- 강화학습 기초
- 카트폴
- FirebaseV9
- React
Archives
- Today
- Total
목록MC (1)
qcoding
[강화학습-5] 몬테카를로 방법 (Monte Carlo Methods)
5. 몬테카를로 방법 (Monte Carlo Methods) “모형이 없을 때, 우리는 실제 경험을 모아 평균을 낸다.” 몬테카를로(MC) 방법은 환경 모델이 없더라도 에피소드를 완주하고 얻은 표본 Return의 평균으로 가치함수를 추정합니다.5-1. 에피소드 기반 학습특징설명샘플 단위전체 에피소드 $(S_0,A_0,R_1,\dots,S_T)$업데이트 시점에피소드가 끝난 뒤 한꺼번에편향없음 (표본 평균이 불편추정량)분산높음 → 많은 에피소드 필요 $$G_t \;=\; R_{t+1} + \gamma R_{t+2} + \dots + \gamma^{T-t-1} R_T$$MC 추정치 $\hat V(s)$ 는 $G_t$ (여러 에피소드) 평균으로 수렴합니다.5-2. First-visit vs Every..
머신러닝 딥러닝
2025. 5. 28. 17:18