qcoding

[강화학습-11] 고급 기법 & 최신 토픽 – PPO · SAC · 분산 RL · 탐험 전략 본문

머신러닝 딥러닝

[강화학습-11] 고급 기법 & 최신 토픽 – PPO · SAC · 분산 RL · 탐험 전략

Qcoding 2025. 5. 28. 17:37
반응형
11. 고급 기법 & 최신 토픽 – PPO · SAC · 분산 RL · 탐험 전략

11. 고급 기법 & 최신 토픽

딥 RL의 실전 적용안정성·샘플 효율·확장성·탐험 네 기둥에 달려 있습니다.
이번 장에서는 PPO · SAC를 비롯해 대규모 분산·멀티에이전트·밴디트 탐험 전략까지 최신 흐름을 한눈에 정리합니다.


11-1. Proximal Policy Optimization (PPO)

아이디어클립 손실
“정책이 한 번에 너무 멀리
이동하지 않도록 완충을 두자.”
$$\mathcal{L}^{\text{CLIP}}(\theta)= \mathbb{E}\Bigl[ \min\Bigl( r_t(\theta)A_t,\; \text{clip}\!\bigl(r_t(\theta),1\!-\!\epsilon,1\!+\!\epsilon\bigr)A_t \Bigr) \Bigr]$$
여기서 $r_t(\theta)=\dfrac{\pi_\theta(a_t\mid s_t)} {\pi_{\theta_{\text{old}}}(a_t\mid s_t)}$
  • TRPO 의 KL-constraint를 클리핑으로 간소화 → 단순 미니배치 SGD 학습.
  • 엔트로피 보너스·GAE(λ)·랭크 정규화 등과 조합해 OpenAI Gym 전반에 안정적으로 수렴.
PPO 그림
그림 1. PPO 업데이트 영역 (클립)

11-2. Soft Actor-Critic (SAC)

SAC는 최대 엔트로피 RL 프레임워크를 채택해 정책 확률 + α 엔트로피를 동시에 최적화합니다.

$$\mathcal{J}(\pi)= \sum_t \mathbb{E}_{(s_t,a_t)\sim\pi}\Bigl[ r_t + \gamma \bigl(V(s_{t+1}) - \alpha \log\pi(a_t\mid s_t)\bigr) \Bigr]$$
  • 자동 α 튜닝 – 목표 엔트로피 대비로 $\alpha$ 를 학습.
  • 더블 Q(2-Critic) – 항상 $\min(Q_1,Q_2)$ 로 부트스트랩 → 과est ↓.
  • 이론상 오프-폴리시 & 스태빌 이면서, MuJoCo · RGB 관측에서도 높은 샘플 효율.
SAC schematic
그림 2. SAC 구조 – 2 Critic + Policy + Target Critic

11-3. 분산 강화학습 & 멀티에이전트 RL

범주대표 기법·프레임워크주요 포인트
분산 샘플링 Ape-X / IMPALA / RLlib
GPU 벡터 인퍼런스 + 수천 CPU 워커
Experience Replay or V-trace로
정책 지연 (Lag) 보정
대규모 학습 SEED RL, Muesli, DeepMind Acme TPU · gRPC · JAX 매트릭스 파이프라인
멀티에이전트 QMIX / VDN / MADDPG / MAPPO Value Decomposition, Central critic,
상호작용 (협동·경쟁)
RLlib architecture
그림 3. 분산 RL 프레임워크 예 (Ray RLlib)

11-4. 탐험 전략 – UCB & Thompson Sampling

전략수식 / 핵심장단점
UCB
(Upper Confidence Bound)
$$a_t=\arg\max_a \Bigl[ \hat\mu_a + c\,\sqrt{\tfrac{\ln t}{N_a}} \Bigr]$$ 매 스텝 불확실성 보너스 추가 → 성가시지만 직관적
Thompson Sampling $$\theta_a \sim p(\theta_a\mid \mathcal{D}_t), \;a_t=\arg\max_a \theta_a$$ Bayesian 샘플링 ↔ 낮은 구현 복잡도
Deep RL에선 Bootstrapped-DQN, RLSVI

딥 RL에 두 전략을 통합한 최근 연구로 UCB-Q, Randomized Ensemble, MCTS guided TS 등이 활발히 진행 중입니다.


11-5. 요약 & 연속 학습 로드맵

  • PPO정책 이동 제한으로 간단·안정·On-policy 학습.
  • SAC최대 엔트로피 오프-폴리시, 고차원 연속 제어 강력.
  • 분산 RL – 샘플·연산 확장 = 학습 가속, 멀티에이전트 ⟶ 게임·로봇 협력.
  • 밴디트 기반 UCB / TS 탐험 전략으로 효율적 정보 수집.

다음 글 : Meta-RL · Offline RL · Large-Language-Model를 조합한 “세대교체 강화학습” 동향까지 살펴보겠습니다.


참고 자료

  • Schulman et al., “Proximal Policy Optimization Algorithms,” 2017
  • Haarnoja et al., “Soft Actor-Critic Algorithms and Applications,” 2019
  • Espeholt et al., “IMPALA: Scalable Distributed RL,” ICML 2018
  • Lattimore & Szepesvári, Bandit Algorithms (Cambridge 2020)
반응형
Comments