qcoding

[AI논문리뷰-강화학습] MuZero - 게임 규칙을 모르면서 바둑·체스·Atari를 동시에 정복한 모델 기반 강화학습 본문

AI논문리뷰-강화학습

[AI논문리뷰-강화학습] MuZero - 게임 규칙을 모르면서 바둑·체스·Atari를 동시에 정복한 모델 기반 강화학습

Qcoding 2026. 5. 2. 09:30
반응형
논문  Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model 저자  Schrittwieser et al. (DeepMind) 학회/연도  Nature, 2020 arXiv  1911.08265

📄 한 문단 요약

MuZero는 DeepMind가 2020년 Nature에 발표한 모델 기반 강화학습 알고리즘으로, 게임 규칙(환경의 역학 모델)을 알려주지 않고도 바둑·체스·쇼기·Atari 57개 게임을 동시에 정복했다. 핵심은 세 신경망(표현 h_θ, 역학 g_θ, 예측 f_θ)이 현실 세계를 그대로 재구성하지 않고, MCTS 계획과 보상 예측에 유용한 잠재 공간을 학습한다는 것이다. AlphaZero가 규칙을 알고 있어야 MCTS를 쓸 수 있었던 한계를 완전히 제거하며, 규칙 없이 단순 픽셀과 보상만으로 AlphaZero와 동등한 보드게임 성능과 SOTA Atari 성능을 달성했다.

이 논문은 무엇을 해결하려고 했나?

AlphaGo와 AlphaZero는 강화학습과 MCTS를 결합해 인간을 뛰어넘는 바둑 AI를 만들었다. 하지만 이 방법들에는 치명적인 전제 조건이 있었다. 게임의 규칙, 즉 역학 모델(dynamics model)이 사전에 주어져야 한다. MCTS가 "이 수를 뒀을 때 다음 상태가 어떻게 되는가"를 탐색하려면 게임의 전이 함수(transition function)를 알아야 하기 때문이다.

이 요구사항은 실제 세계에서 심각한 한계가 된다. 아타리 게임은 규칙을 명시적으로 줄 수 있지만, 로봇 제어나 자율주행처럼 복잡한 물리 환경에서는 완벽한 역학 모델을 제공하기 어렵다. 또 환경 규칙을 가르쳐주는 방식은 일반화된 지능에서 멀어진다.

MuZero의 핵심 질문은 이것이다: "규칙을 모르는 채로, 경험만으로 MCTS에 필요한 역학 모델을 스스로 학습할 수 있는가?" 그리고 답은 "가능하다"였다. 단, 현실을 완벽히 재현하는 모델이 아니라 계획과 가치 예측에 '충분히 유용한' 잠재 모델만 있으면 된다.

배경지식과 핵심 키워드

배경지식과 핵심 키워드

AlphaZero와의 차이
AlphaZero는 게임 규칙(전이 함수)을 알고 MCTS를 수행한다. 정책·가치 네트워크만 학습하며 역학은 주어진다.
MuZero는 역학 함수 g_θ까지 신경망으로 학습한다. 규칙 없이 관측(픽셀)과 보상만으로 세 신경망을 동시에 훈련한다.
결과적으로 MuZero는 AlphaZero의 보드게임 성능과 동등하면서, 규칙 기반 환경이 없는 Atari에도 적용 가능하다.
MCTS (Monte Carlo Tree Search)
선택(UCB 기반) → 확장 → 시뮬레이션(backup) → 역전파 4단계로 트리를 탐색하는 계획 알고리즘. AlphaZero에서는 800 시뮬레이션/수.
MuZero에서는 실제 환경 대신 학습된 g_θ로 롤아웃을 수행한다. 따라서 규칙 없이도 MCTS 계획이 가능하다.
MCTS 방문 횟수 비율이 학습 타깃 정책 π^t가 된다. 보드게임 800 시뮬레이션, Atari 50 시뮬레이션.
표현 함수 h_θ (Representation)
과거 관측 o₁,...,o_t를 받아 초기 잠재 상태 s⁰를 생성한다: s⁰ = h_θ(o₁,...,o_t).
s^k는 현실의 픽셀을 재구성하지 않는다. 보상·가치·정책 예측에 충분히 유용한 압축 표현이면 된다는 것이 MuZero의 핵심 철학이다.
보드게임에서는 ResNet 16블록, Atari에서는 ResNet 6블록 + downsampling 인코더를 사용한다.
역학 함수 g_θ (Dynamics)
이전 잠재 상태와 행동을 받아 즉각 보상과 다음 잠재 상태를 예측: r^k, s^k = g_θ(s^(k-1), a^k).
MCTS가 이 함수로 가상의 미래 경로를 시뮬레이션한다. "규칙 없는 MCTS"를 가능하게 하는 핵심 네트워크다.
K=5 단계 언롤 학습. 잠재 상태는 L2 정규화로 범위를 유지한다.
예측 함수 f_θ (Prediction)
잠재 상태 s^k에서 정책 p^k와 가치 v^k를 동시에 출력: p^k, v^k = f_θ(s^k).
AlphaZero의 policy+value 헤드와 동일한 역할이지만, 실제 상태가 아닌 잠재 상태를 입력받는다.
보드게임에서 v^k는 게임 결과로, Atari에서는 n-step bootstrapped 리턴으로 타깃을 구성한다.
K-step 언롤 학습
리플레이 버퍼에서 궤적을 샘플링해 K 스텝(기본 5) 동안 g_θ로 언롤하며 보상·가치·정책 세 가지 손실을 동시에 최소화한다.
손실: L = Σ_{k=0}^{K} [ l^r(u^(t+k), r^k) + l^v(z^(t+k), v^k) + l^p(π^(t+k), p^k) ]. u=실제 보상, z=MCTS 가치 타깃, π=MCTS 방문 비율.
이 공동 학습이 h_θ, g_θ, f_θ 세 네트워크를 동시에 end-to-end로 훈련시킨다.
리플레이 버퍼 (Replay Buffer)
Self-play로 수집한 궤적을 저장하는 버퍼. Atari는 125,000 위치, 보드게임은 500,000 게임 이상 저장.
MuZero는 on-policy와 off-policy 사이 어딘가에 있다. MCTS 정책(π)을 저장하고 나중에 재학습에 쓴다.
Reanalysis 기법(저장된 궤적을 새 네트워크로 재분석해 더 정확한 MCTS 타깃 생성)으로 샘플 효율을 높인다.
가치 스케일링 (Value Scaling)
보드게임은 보상이 {-1, 0, 1}로 제한되지만 Atari는 보상 범위가 게임마다 다르다. 이를 통일하기 위해 h(x) = sign(x)(√(|x|+1)−1) + εx 변환을 적용한다.
보상과 가치 타깃을 [-1, 1]에 가깝게 압축해 하나의 네트워크가 다양한 보상 스케일에서도 안정적으로 학습하게 한다.
Atari 57개 게임에서 보상 클리핑 없이 이 스케일링만으로 학습 안정성을 확보했다.
UCB 탐색 (pUCT 공식)
MCTS 선택 단계에서 UCB = Q(s,a) + C(s) · P(s,a) · √N(s) / (1 + N(s,a))를 최대화하는 행동을 선택.
P(s,a)는 f_θ의 사전 정책, Q(s,a)는 시뮬레이션에서 추정한 행동 가치, N은 방문 횟수다.
이 공식이 탐색(덜 방문한 행동)과 활용(높은 가치)의 균형을 잡으며, AlphaZero와 동일한 방식을 MuZero에서도 사용한다.
Reanalysis (재분석)
리플레이 버퍼에 저장된 궤적을 현재 (더 나아진) 네트워크로 MCTS를 다시 실행해 더 정확한 정책·가치 타깃을 생성하는 기법.
오래된 궤적에도 최신 네트워크의 예측을 적용할 수 있어 샘플 효율이 크게 개선된다. Atari에서 샘플 효율 ×6 향상.
학습 연산의 약 50%를 Reanalysis에 할당하는 것이 최적이었다.

핵심 인사이트

MuZero의 핵심 철학은 "완벽한 세계 모델이 아니라 계획에 충분한 추상 모델"이다. 잠재 상태 s^k는 픽셀을 재구성할 필요가 없다. h_θ, g_θ, f_θ가 오직 보상·가치·정책을 맞추는 방향으로만 학습하면 된다. 이 간단한 제약 완화 덕분에 규칙 없이도 MCTS 계획이 가능해졌다.

기존 방법의 한계

Model-Free RL (DQN, PPO, A3C): 규칙이 필요 없다는 장점이 있지만, 계획(planning) 기능이 없어 장기 전략이 필요한 보드게임에서는 한계가 뚜렷하다. 샘플 효율도 낮아 Atari에서 수억 번 이상의 환경 상호작용이 필요하다.

AlphaGo / AlphaZero: MCTS + 자가 대국으로 강력한 성능을 냈지만, 게임의 전이 함수가 완전히 알려진 경우에만 작동한다. 바둑·체스는 규칙이 명확해 MCTS에서 바로 다음 상태를 계산할 수 있지만, Atari처럼 규칙이 코드 내부에 숨어있는 경우에는 적용 불가다.

기존 모델 기반 RL (Dyna, World Models, I2A): 실제 관측 공간에서 역학 모델을 학습하려다 보면 고차원 픽셀 예측이 필요하다. 픽셀 예측 오차가 계획 단계에서 증폭되어 장기 롤아웃이 부정확해지는 문제가 있었다.

MuZero는 이 세 가지 한계를 동시에 해소한다. 계획 능력(Model-Free의 한계 해소) + 규칙 불필요(AlphaZero의 한계 해소) + 픽셀 재구성 불필요(기존 모델 기반 RL의 한계 해소).

제안 방법의 핵심 아이디어

MuZero는 세 신경망이 협력해 동작한다:

// 1. 표현: 과거 관측 → 초기 잠재 상태
s⁰ = h_θ(o₁, o₂, ..., o_t)

// 2. 역학: MCTS 롤아웃 (k = 1 ... K)
r^k, s^k = g_θ(s^(k-1), a^k)   // 보상 + 다음 잠재 상태

// 3. 예측: 각 잠재 상태에서 정책 + 가치
p^k, v^k = f_θ(s^k)

행동 선택 (실행 시간):

  1. h_θ로 현재 관측을 잠재 상태 s⁰로 인코딩
  2. g_θ와 f_θ를 써서 MCTS 수행 (800 시뮬레이션)
  3. MCTS 방문 비율에 비례해 행동 샘플링

학습 (훈련 시간): 리플레이 버퍼에서 궤적 샘플 → t 위치에서 K 스텝 언롤 → 세 손실 최소화:

L = Σ_{k=0}^{K} [
  l^r(u_{t+k}, r^k)    // 보상 예측 오차 (MSE)
  + l^v(z_{t+k}, v^k)  // 가치 예측 오차 (MSE + categorical)
  + l^p(π_{t+k}, p^k)  // 정책 예측 오차 (cross-entropy)
]

여기서 z는 MCTS 가치 타깃(n-step bootstrap), π는 MCTS 방문 비율이다.

논문 그림/표로 이해하기

MuZero 세 신경망(표현·역학·예측)과 MCTS 계획 흐름도
원문 Figure 1: MuZero 계획·실행·학습 흐름. 출처: Schrittwieser et al., "Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model", Nature 2020. arXiv:1911.08265 — arXiv 라이선스 하에 인용.

Figure 1은 MuZero의 전체 파이프라인을 보여준다. 왼쪽 "Planning"은 h_θ → MCTS(g_θ, f_θ 반복) → 행동 선택 흐름이다. 가운데 "Acting"은 실제 환경과 상호작용하며 궤적을 리플레이 버퍼에 저장하는 단계다. 오른쪽 "Training"은 버퍼에서 샘플링해 K-step 언롤로 세 손실을 동시에 최소화한다.

MuZero 학습 과정에서 체스·쇼기·바둑·Atari 성능 그래프
원문 Figure 2: 학습 과정 Elo 추이 (체스·쇼기·바둑) 및 Atari 성능. 출처: Schrittwieser et al., Nature 2020. arXiv:1911.08265 — arXiv 라이선스 하에 인용.

Figure 2는 학습 단계별 Elo 추이다. MuZero(파란선)는 AlphaZero(회색 기준선)와 같은 훈련 시간 내에 거의 동일한 Elo에 수렴한다 — 규칙 없이 학습했음에도 불구하고. Atari 패널에서는 학습 스텝 증가에 따라 꾸준히 성능이 오르는 것을 볼 수 있다.

MuZero Atari 57개 게임 미디언 정규화 점수 스케일링
원문 Figure 3B: Atari 57게임 정규화 중간값 점수 vs 학습 스텝. 출처: Schrittwieser et al., Nature 2020. arXiv:1911.08265 — arXiv 라이선스 하에 인용.

Atari 결과를 보면 MuZero는 모델 프리 SOTA(R2D2 등)를 상당한 차이로 앞서며, Reanalysis 기법 추가 시 샘플 효율이 더욱 향상된다. 200K~500K 스텝 범위에서 이미 기존 모델 프리 방법의 수천만 스텝 결과를 뛰어넘는다.

실험 설정과 결과 해석

보드게임 결과:

환경 AlphaZero Elo MuZero Elo 규칙 제공
체스 (Chess) 3,392 3,393 AlphaZero: ✓ / MuZero: ✗
쇼기 (Shogi) 4,179 4,388 AlphaZero: ✓ / MuZero: ✗
바둑 19×19 (Go) 4,415 4,444 AlphaZero: ✓ / MuZero: ✗
논문 Figure 2 결과 재구성. MuZero는 게임 규칙 없이 AlphaZero와 동등하거나 더 높은 Elo 달성.

Atari 결과: 57개 게임 중 MuZero가 42개에서 이전 SOTA(R2D2)를 능가했다. 인간 기준 정규화 중간값 점수 2041.1%. 특히 Ms. Pac-Man에서는 인간 점수의 731배에 달하는 압도적 성능을 보였다.

Reanalysis 효과: 동일 계산량에서 Reanalysis 없는 MuZero 대비 샘플 효율 6배 향상. 저장된 오래된 궤적을 최신 네트워크로 재분석해 더 정확한 MCTS 타깃을 만드는 것이 핵심이다.

핵심 인사이트

가장 놀라운 점은 MuZero가 체스·쇼기·바둑에서 AlphaZero와 동등한 Elo를 냈다는 것이다. 규칙을 알려준 AlphaZero와 규칙을 스스로 학습한 MuZero의 차이가 거의 없다. 역학 함수를 학습하는 데 드는 오버헤드가 MCTS 계획의 이점으로 충분히 상쇄된다는 것을 보여준다.

한계와 비판적 관점

1. 계산 비용: 세 신경망을 동시에 학습하고 MCTS를 수행하는 것은 매우 비싸다. 보드게임에서 AlphaZero와 동등한 성능을 내기 위해 유사한 수준의 TPU 시간이 필요하다. 비용 면에서 모델 프리 PPO 계열보다 훨씬 무겁다.

2. 잠재 상태의 불투명성: s^k가 현실을 재구성하지 않기 때문에 에이전트가 "무슨 생각을 하는지" 해석하기 어렵다. 설명 가능한 AI(XAI) 관점에서 블랙박스 문제가 있다.

3. 장기 계획의 오류 누적: g_θ가 K 스텝마다 작은 오차를 내면, 깊은 트리 탐색에서 오차가 누적된다. 매우 긴 지평선이 필요한 환경에서는 성능이 저하될 수 있다.

4. 희소 보상 환경의 한계: 보상이 거의 없는 환경에서 r^k 손실이 약해지면 역학 함수 학습이 불안정해진다. Montezuma's Revenge 같은 희소 보상 Atari 게임에서는 성능 향상이 제한적이다.

5. 연속 행동 공간 미적용: 논문에서는 이산 행동 공간(보드게임, Atari)만 다룬다. 연속 행동 공간(로봇 제어)으로의 확장은 후속 연구(EfficientZero, Dreamer 등)에서 이루어진다.

구현하거나 응용한다면 무엇을 봐야 하나?

핵심 구현 포인트:

  1. 잠재 상태 정규화: g_θ 언롤 후 잠재 상태를 L2 정규화(또는 min-max 스케일링)하지 않으면 잠재 공간이 폭발하거나 수렴이 안 된다. 논문에서는 각 레이어의 출력을 [-1, 1]로 스케일링한다.
  2. 가치 표현 (Categorical): 가치와 보상을 단일 스칼라가 아닌 카테고리 분포로 표현한다. 스케일이 다른 게임에서도 안정적인 학습이 가능하며, 분포로 표현하면 학습 신호가 더 풍부하다.
  3. Self-play 병렬화: 빠른 수렴을 위해 다수의 액터가 병렬로 self-play하며 버퍼를 채운다. DeepMind 실험에서는 수백 개의 TPU 코어를 사용했다.
  4. Reanalysis 비율: 학습 배치의 ~50%를 Reanalysis에 할당하는 것이 논문 권장값이다. 비율이 높으면 계산 오버헤드, 낮으면 샘플 효율 저하.
  5. 오픈소스 구현:
    • EfficientZero: 연속 행동 + 더 효율적인 MuZero 변형
    • muzero-general (GitHub): MuZero 커뮤니티 PyTorch 구현, 다양한 환경 지원

실용 응용 방향: MuZero의 학습된 역학 함수 개념은 자율주행(불완전한 물리 모델), 로봇 제어(복잡한 접촉 역학), 바이오 시뮬레이션 등 규칙을 명시하기 어려운 영역에서 큰 잠재력이 있다.

한 줄 결론과 다음에 읽을 논문

한 줄 결론: MuZero는 "완벽한 세계 모델 대신 계획에 충분한 잠재 모델"을 학습함으로써, 규칙 없이도 AlphaZero와 동등한 보드게임 성능과 Atari SOTA를 동시에 달성했다.

다음에 읽을 논문:

  • EfficientZero (2021): MuZero에 Self-supervised consistency loss를 추가해 샘플 효율 20배 개선. Atari 100K 벤치마크 SOTA.
  • Dreamer / DreamerV2/V3 (2020-2023): 연속 행동 공간에서 유사한 잠재 모델 기반 RL. 로봇 제어에 특화.
  • AlphaCode (2022): MuZero의 "학습된 탐색" 철학을 코드 생성 문제에 적용한 DeepMind 연구.

참고 자료:

반응형
Comments