반응형
Notice
Recent Posts
Recent Comments
Link
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 | 31 |
Tags
- ReactNative
- 조코딩
- 전국국밥
- 딥러닝
- App
- 클론코딩
- 강화학습 기초
- kaggle
- React
- 카트폴
- expo
- 리액트네이티브
- TeachagleMachine
- FirebaseV9
- redux
- Instagrame clone
- GYM
- 데이터분석
- Ros
- pandas
- 강화학습
- python
- 앱개발
- clone coding
- JavaScript
- Reinforcement Learning
- 사이드프로젝트
- 머신러닝
- coding
- selenium
Archives
- Today
- Total
목록MC (1)
qcoding
[강화학습-5] 몬테카를로 방법 (Monte Carlo Methods)
5. 몬테카를로 방법 (Monte Carlo Methods) “모형이 없을 때, 우리는 실제 경험을 모아 평균을 낸다.” 몬테카를로(MC) 방법은 환경 모델이 없더라도 에피소드를 완주하고 얻은 표본 Return의 평균으로 가치함수를 추정합니다.5-1. 에피소드 기반 학습특징설명샘플 단위전체 에피소드 $(S_0,A_0,R_1,\dots,S_T)$업데이트 시점에피소드가 끝난 뒤 한꺼번에편향없음 (표본 평균이 불편추정량)분산높음 → 많은 에피소드 필요 $$G_t \;=\; R_{t+1} + \gamma R_{t+2} + \dots + \gamma^{T-t-1} R_T$$MC 추정치 $\hat V(s)$ 는 $G_t$ (여러 에피소드) 평균으로 수렴합니다.5-2. First-visit vs Every..
머신러닝 딥러닝
2025. 5. 28. 17:18