반응형
Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
Tags
- 강화학습
- selenium
- Instagrame clone
- 데이터분석
- 머신러닝
- 딥러닝
- 클론코딩
- Ros
- React
- 앱개발
- expo
- 조코딩
- coding
- redux
- Reinforcement Learning
- TeachagleMachine
- JavaScript
- App
- pandas
- python
- clone coding
- FirebaseV9
- 리액트네이티브
- GYM
- 카트폴
- 사이드프로젝트
- 전국국밥
- ReactNative
- kaggle
- 강화학습 기초
Archives
- Today
- Total
qcoding
[강화학습-11] 고급 기법 & 최신 토픽 – PPO · SAC · 분산 RL · 탐험 전략 본문
반응형
11. 고급 기법 & 최신 토픽
딥 RL의 실전 적용은 안정성·샘플 효율·확장성·탐험 네 기둥에 달려 있습니다.
이번 장에서는 PPO · SAC를 비롯해 대규모 분산·멀티에이전트·밴디트 탐험 전략까지 최신 흐름을 한눈에 정리합니다.
11-1. Proximal Policy Optimization (PPO)
아이디어 | 클립 손실 |
---|---|
“정책이 한 번에 너무 멀리 이동하지 않도록 완충을 두자.” |
$$\mathcal{L}^{\text{CLIP}}(\theta)=
\mathbb{E}\Bigl[
\min\Bigl(
r_t(\theta)A_t,\;
\text{clip}\!\bigl(r_t(\theta),1\!-\!\epsilon,1\!+\!\epsilon\bigr)A_t
\Bigr)
\Bigr]$$
여기서 $r_t(\theta)=\dfrac{\pi_\theta(a_t\mid s_t)} {\pi_{\theta_{\text{old}}}(a_t\mid s_t)}$ |
- TRPO 의 KL-constraint를 클리핑으로 간소화 → 단순 미니배치 SGD 학습.
- 엔트로피 보너스·GAE(λ)·랭크 정규화 등과 조합해 OpenAI Gym 전반에 안정적으로 수렴.

11-2. Soft Actor-Critic (SAC)
SAC는 최대 엔트로피 RL 프레임워크를 채택해 정책 확률 + α 엔트로피를 동시에 최적화합니다.
$$\mathcal{J}(\pi)=
\sum_t \mathbb{E}_{(s_t,a_t)\sim\pi}\Bigl[
r_t + \gamma \bigl(V(s_{t+1}) - \alpha \log\pi(a_t\mid s_t)\bigr)
\Bigr]$$
- 자동 α 튜닝 – 목표 엔트로피 대비로 $\alpha$ 를 학습.
- 더블 Q(2-Critic) – 항상 $\min(Q_1,Q_2)$ 로 부트스트랩 → 과est ↓.
- 이론상 오프-폴리시 & 스태빌 이면서, MuJoCo · RGB 관측에서도 높은 샘플 효율.

11-3. 분산 강화학습 & 멀티에이전트 RL
범주 | 대표 기법·프레임워크 | 주요 포인트 |
---|---|---|
분산 샘플링 | Ape-X / IMPALA / RLlib GPU 벡터 인퍼런스 + 수천 CPU 워커 |
Experience Replay or V-trace로 정책 지연 (Lag) 보정 |
대규모 학습 | SEED RL, Muesli, DeepMind Acme | TPU · gRPC · JAX 매트릭스 파이프라인 |
멀티에이전트 | QMIX / VDN / MADDPG / MAPPO | Value Decomposition, Central critic, 상호작용 (협동·경쟁) |
11-4. 탐험 전략 – UCB & Thompson Sampling
전략 | 수식 / 핵심 | 장단점 |
---|---|---|
UCB (Upper Confidence Bound) |
$$a_t=\arg\max_a \Bigl[ \hat\mu_a + c\,\sqrt{\tfrac{\ln t}{N_a}} \Bigr]$$ | 매 스텝 불확실성 보너스 추가 → 성가시지만 직관적 |
Thompson Sampling | $$\theta_a \sim p(\theta_a\mid \mathcal{D}_t), \;a_t=\arg\max_a \theta_a$$ | Bayesian 샘플링 ↔ 낮은 구현 복잡도 Deep RL에선 Bootstrapped-DQN, RLSVI |
딥 RL에 두 전략을 통합한 최근 연구로 UCB-Q, Randomized Ensemble, MCTS guided TS 등이 활발히 진행 중입니다.
11-5. 요약 & 연속 학습 로드맵
- PPO – 정책 이동 제한으로 간단·안정·On-policy 학습.
- SAC – 최대 엔트로피 오프-폴리시, 고차원 연속 제어 강력.
- 분산 RL – 샘플·연산 확장 = 학습 가속, 멀티에이전트 ⟶ 게임·로봇 협력.
- 밴디트 기반 UCB / TS 탐험 전략으로 효율적 정보 수집.
다음 글 : Meta-RL · Offline RL · Large-Language-Model를 조합한 “세대교체 강화학습” 동향까지 살펴보겠습니다.
참고 자료
- Schulman et al., “Proximal Policy Optimization Algorithms,” 2017
- Haarnoja et al., “Soft Actor-Critic Algorithms and Applications,” 2019
- Espeholt et al., “IMPALA: Scalable Distributed RL,” ICML 2018
- Lattimore & Szepesvári, Bandit Algorithms (Cambridge 2020)
반응형
'머신러닝 딥러닝' 카테고리의 다른 글
[강화학습-13] 도구 · 라이브러리 모음 – Gym · Stable Baselines3 · TF vs PyTorch (0) | 2025.05.28 |
---|---|
[강화학습-12] 실전 프로젝트 사례 연구 – 환경 선정, 튜닝, 시뮬레이터 연동 (0) | 2025.05.28 |
[강화학습-10] 액터-크리틱(Actor-Critic) (0) | 2025.05.28 |
[강화학습-9] 정책 기반 방법 (Policy Gradient) – REINFORCE (0) | 2025.05.28 |
[강화학습-8] 딥 강화학습(Deep RL) 기초 – DQN (2) | 2025.05.28 |
Comments