머신러닝 딥러닝
[강화학습-11] 고급 기법 & 최신 토픽 – PPO · SAC · 분산 RL · 탐험 전략
Qcoding
2025. 5. 28. 17:37
반응형
11. 고급 기법 & 최신 토픽
딥 RL의 실전 적용은 안정성·샘플 효율·확장성·탐험 네 기둥에 달려 있습니다.
이번 장에서는 PPO · SAC를 비롯해 대규모 분산·멀티에이전트·밴디트 탐험 전략까지 최신 흐름을 한눈에 정리합니다.
11-1. Proximal Policy Optimization (PPO)
| 아이디어 | 클립 손실 |
|---|---|
| “정책이 한 번에 너무 멀리 이동하지 않도록 완충을 두자.” |
$$\mathcal{L}^{\text{CLIP}}(\theta)=
\mathbb{E}\Bigl[
\min\Bigl(
r_t(\theta)A_t,\;
\text{clip}\!\bigl(r_t(\theta),1\!-\!\epsilon,1\!+\!\epsilon\bigr)A_t
\Bigr)
\Bigr]$$
여기서 $r_t(\theta)=\dfrac{\pi_\theta(a_t\mid s_t)} {\pi_{\theta_{\text{old}}}(a_t\mid s_t)}$ |
- TRPO 의 KL-constraint를 클리핑으로 간소화 → 단순 미니배치 SGD 학습.
- 엔트로피 보너스·GAE(λ)·랭크 정규화 등과 조합해 OpenAI Gym 전반에 안정적으로 수렴.
11-2. Soft Actor-Critic (SAC)
SAC는 최대 엔트로피 RL 프레임워크를 채택해 정책 확률 + α 엔트로피를 동시에 최적화합니다.
$$\mathcal{J}(\pi)=
\sum_t \mathbb{E}_{(s_t,a_t)\sim\pi}\Bigl[
r_t + \gamma \bigl(V(s_{t+1}) - \alpha \log\pi(a_t\mid s_t)\bigr)
\Bigr]$$
- 자동 α 튜닝 – 목표 엔트로피 대비로 $\alpha$ 를 학습.
- 더블 Q(2-Critic) – 항상 $\min(Q_1,Q_2)$ 로 부트스트랩 → 과est ↓.
- 이론상 오프-폴리시 & 스태빌 이면서, MuJoCo · RGB 관측에서도 높은 샘플 효율.
11-3. 분산 강화학습 & 멀티에이전트 RL
| 범주 | 대표 기법·프레임워크 | 주요 포인트 |
|---|---|---|
| 분산 샘플링 | Ape-X / IMPALA / RLlib GPU 벡터 인퍼런스 + 수천 CPU 워커 |
Experience Replay or V-trace로 정책 지연 (Lag) 보정 |
| 대규모 학습 | SEED RL, Muesli, DeepMind Acme | TPU · gRPC · JAX 매트릭스 파이프라인 |
| 멀티에이전트 | QMIX / VDN / MADDPG / MAPPO | Value Decomposition, Central critic, 상호작용 (협동·경쟁) |
11-4. 탐험 전략 – UCB & Thompson Sampling
| 전략 | 수식 / 핵심 | 장단점 |
|---|---|---|
| UCB (Upper Confidence Bound) |
$$a_t=\arg\max_a \Bigl[ \hat\mu_a + c\,\sqrt{\tfrac{\ln t}{N_a}} \Bigr]$$ | 매 스텝 불확실성 보너스 추가 → 성가시지만 직관적 |
| Thompson Sampling | $$\theta_a \sim p(\theta_a\mid \mathcal{D}_t), \;a_t=\arg\max_a \theta_a$$ | Bayesian 샘플링 ↔ 낮은 구현 복잡도 Deep RL에선 Bootstrapped-DQN, RLSVI |
딥 RL에 두 전략을 통합한 최근 연구로 UCB-Q, Randomized Ensemble, MCTS guided TS 등이 활발히 진행 중입니다.
11-5. 요약 & 연속 학습 로드맵
- PPO – 정책 이동 제한으로 간단·안정·On-policy 학습.
- SAC – 최대 엔트로피 오프-폴리시, 고차원 연속 제어 강력.
- 분산 RL – 샘플·연산 확장 = 학습 가속, 멀티에이전트 ⟶ 게임·로봇 협력.
- 밴디트 기반 UCB / TS 탐험 전략으로 효율적 정보 수집.
다음 글 : Meta-RL · Offline RL · Large-Language-Model를 조합한 “세대교체 강화학습” 동향까지 살펴보겠습니다.
참고 자료
- Schulman et al., “Proximal Policy Optimization Algorithms,” 2017
- Haarnoja et al., “Soft Actor-Critic Algorithms and Applications,” 2019
- Espeholt et al., “IMPALA: Scalable Distributed RL,” ICML 2018
- Lattimore & Szepesvári, Bandit Algorithms (Cambridge 2020)
반응형