Notice

Recent Posts

Recent Comments

Link

« 2025/11 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30

Tags more

Archives

Today

Total

관리 메뉴

qcoding

[강화학습-11] 고급 기법 & 최신 토픽 – PPO · SAC · 분산 RL · 탐험 전략 본문

머신러닝 딥러닝

[강화학습-11] 고급 기법 & 최신 토픽 – PPO · SAC · 분산 RL · 탐험 전략

Qcoding 2025. 5. 28. 17:37

11. 고급 기법 & 최신 토픽 – PPO · SAC · 분산 RL · 탐험 전략

11. 고급 기법 & 최신 토픽

딥 RL의 실전 적용은 안정성·샘플 효율·확장성·탐험 네 기둥에 달려 있습니다.
이번 장에서는 PPO · SAC를 비롯해 대규모 분산·멀티에이전트·밴디트 탐험 전략까지 최신 흐름을 한눈에 정리합니다.

11-1. Proximal Policy Optimization (PPO)

아이디어	클립 손실
“정책이 한 번에 너무 멀리 이동하지 않도록 완충을 두자.”	$$\mathcal{L}^{\text{CLIP}}(\theta)= \mathbb{E}\Bigl[ \min\Bigl( r_t(\theta)A_t,\; \text{clip}\!\bigl(r_t(\theta),1\!-\!\epsilon,1\!+\!\epsilon\bigr)A_t \Bigr) \Bigr]$$ 여기서 $r_t(\theta)=\dfrac{\pi_\theta(a_t\mid s_t)} {\pi_{\theta_{\text{old}}}(a_t\mid s_t)}$

TRPO 의 KL-constraint를 클리핑으로 간소화 → 단순 미니배치 SGD 학습.
엔트로피 보너스·GAE(λ)·랭크 정규화 등과 조합해 OpenAI Gym 전반에 안정적으로 수렴.

11-2. Soft Actor-Critic (SAC)

SAC는 최대 엔트로피 RL 프레임워크를 채택해 정책 확률 + α 엔트로피를 동시에 최적화합니다.

$$\mathcal{J}(\pi)= \sum_t \mathbb{E}_{(s_t,a_t)\sim\pi}\Bigl[ r_t + \gamma \bigl(V(s_{t+1}) - \alpha \log\pi(a_t\mid s_t)\bigr) \Bigr]$$

자동 α 튜닝 – 목표 엔트로피 대비로 $\alpha$ 를 학습.
더블 Q(2-Critic) – 항상 $\min(Q_1,Q_2)$ 로 부트스트랩 → 과est ↓.
이론상 오프-폴리시 & 스태빌 이면서, MuJoCo · RGB 관측에서도 높은 샘플 효율.

SAC schematic — 그림 2. SAC 구조 – 2 Critic + Policy + Target Critic

11-3. 분산 강화학습 & 멀티에이전트 RL

범주	대표 기법·프레임워크	주요 포인트
분산 샘플링	Ape-X / IMPALA / RLlib GPU 벡터 인퍼런스 + 수천 CPU 워커	Experience Replay or V-trace로 정책 지연 (Lag) 보정
대규모 학습	SEED RL, Muesli, DeepMind Acme	TPU · gRPC · JAX 매트릭스 파이프라인
멀티에이전트	QMIX / VDN / MADDPG / MAPPO	Value Decomposition, Central critic, 상호작용 (협동·경쟁)

RLlib architecture — 그림 3. 분산 RL 프레임워크 예 (Ray RLlib)

11-4. 탐험 전략 – UCB & Thompson Sampling

전략	수식 / 핵심	장단점
UCB (Upper Confidence Bound)	$$a_t=\arg\max_a \Bigl[ \hat\mu_a + c\,\sqrt{\tfrac{\ln t}{N_a}} \Bigr]$$	매 스텝 불확실성 보너스 추가 → 성가시지만 직관적
Thompson Sampling	$$\theta_a \sim p(\theta_a\mid \mathcal{D}_t), \;a_t=\arg\max_a \theta_a$$	Bayesian 샘플링 ↔ 낮은 구현 복잡도 Deep RL에선 Bootstrapped-DQN, RLSVI

딥 RL에 두 전략을 통합한 최근 연구로 UCB-Q, Randomized Ensemble, MCTS guided TS 등이 활발히 진행 중입니다.

11-5. 요약 & 연속 학습 로드맵

PPO – 정책 이동 제한으로 간단·안정·On-policy 학습.
SAC – 최대 엔트로피 오프-폴리시, 고차원 연속 제어 강력.
분산 RL – 샘플·연산 확장 = 학습 가속, 멀티에이전트 ⟶ 게임·로봇 협력.
밴디트 기반 UCB / TS 탐험 전략으로 효율적 정보 수집.

다음 글 : Meta-RL · Offline RL · Large-Language-Model를 조합한 “세대교체 강화학습” 동향까지 살펴보겠습니다.

참고 자료

Schulman et al., “Proximal Policy Optimization Algorithms,” 2017
Haarnoja et al., “Soft Actor-Critic Algorithms and Applications,” 2019
Espeholt et al., “IMPALA: Scalable Distributed RL,” ICML 2018
Lattimore & Szepesvári, Bandit Algorithms (Cambridge 2020)

저작자표시 (새창열림)

'머신러닝 딥러닝' 카테고리의 다른 글

[강화학습-13] 도구 · 라이브러리 모음 – Gym · Stable Baselines3 · TF vs PyTorch (0)	2025.05.28
[강화학습-12] 실전 프로젝트 사례 연구 – 환경 선정, 튜닝, 시뮬레이터 연동 (0)	2025.05.28
[강화학습-10] 액터-크리틱(Actor-Critic) (0)	2025.05.28
[강화학습-9] 정책 기반 방법 (Policy Gradient) – REINFORCE (0)	2025.05.28
[강화학습-8] 딥 강화학습(Deep RL) 기초 – DQN (2)	2025.05.28

'머신러닝 딥러닝' Related Articles

Comments