반응형
Notice
Recent Posts
Recent Comments
Link
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | ||||||
| 2 | 3 | 4 | 5 | 6 | 7 | 8 |
| 9 | 10 | 11 | 12 | 13 | 14 | 15 |
| 16 | 17 | 18 | 19 | 20 | 21 | 22 |
| 23 | 24 | 25 | 26 | 27 | 28 | 29 |
| 30 |
Tags
- Instagrame clone
- FirebaseV9
- 카트폴
- 강화학습 기초
- clone coding
- GYM
- redux
- 사이드프로젝트
- 강화학습
- 조코딩
- kaggle
- Reinforcement Learning
- 클론코딩
- selenium
- 앱개발
- pandas
- Ros
- JavaScript
- ReactNative
- App
- React
- TeachagleMachine
- coding
- 딥러닝
- 데이터분석
- python
- 전국국밥
- 머신러닝
- expo
- 리액트네이티브
Archives
- Today
- Total
목록lunarlander-v2 (1)
qcoding
[강화학습-10] 액터-크리틱(Actor-Critic)
10. Actor–Critic 구조 (A2C·A3C) & Advantage 함수 Actor–Critic(AC)은 정책(Actor) 과 가치 추정(Critic)을 동시에 학습해 정책 기반 방법의 높은 표현력과 TD 부트스트랩의 샘플 효율을 결합합니다. 그림 1. Actor–Critic 상호작용 ⟶ TD 오차 δ가 정책을 곧바로 갱신한다.10-1. A2C (Advantage Actor-Critic) 동기식 A2C : N개의 워커가 동시에 n-step Return을 계산, 미니배치로 정책/가치 네트워크를 업데이트. Advantage $A_t = R_t^{(n)} - V_\phi(S_t)$ 를 이용해 baseline 분산↓. 목표 손실 $$\mathcal{L} = \..
머신러닝 딥러닝
2025. 5. 28. 17:34