반응형
Notice
Recent Posts
Recent Comments
Link
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | 3 | 4 | 5 | 6 | |
| 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| 14 | 15 | 16 | 17 | 18 | 19 | 20 |
| 21 | 22 | 23 | 24 | 25 | 26 | 27 |
| 28 | 29 | 30 | 31 |
Tags
- selenium
- FirebaseV9
- 카트폴
- Ros
- pandas
- React
- 강화학습
- python
- 조코딩
- 앱개발
- ReactNative
- 클론코딩
- 데이터분석
- 딥러닝
- GYM
- 사이드프로젝트
- TeachagleMachine
- Instagrame clone
- clone coding
- 리액트네이티브
- Reinforcement Learning
- 전국국밥
- coding
- 머신러닝
- kaggle
- 강화학습 기초
- App
- redux
- JavaScript
- expo
Archives
- Today
- Total
목록SAC (1)
qcoding
[강화학습-11] 고급 기법 & 최신 토픽 – PPO · SAC · 분산 RL · 탐험 전략
11. 고급 기법 & 최신 토픽 딥 RL의 실전 적용은 안정성·샘플 효율·확장성·탐험 네 기둥에 달려 있습니다. 이번 장에서는 PPO · SAC를 비롯해 대규모 분산·멀티에이전트·밴디트 탐험 전략까지 최신 흐름을 한눈에 정리합니다.11-1. Proximal Policy Optimization (PPO)아이디어클립 손실 “정책이 한 번에 너무 멀리이동하지 않도록 완충을 두자.” $$\mathcal{L}^{\text{CLIP}}(\theta)= \mathbb{E}\Bigl[ \min\Bigl( r_t(\theta)A_t,\; \text{clip}\!\bigl(r_t(\theta),1\!-\!\epsilon,1\!+\!\eps..
머신러닝 딥러닝
2025. 5. 28. 17:37