[AI논문리뷰-강화학습] Dreamer 4 - 확장 가능한 세계 모델 안에서 에이전트를 학습시켜 Minecraft 다이아몬드를 오프라인으로 최초 획득

Notice

Recent Posts

Recent Comments

Link

« 2026/05 »
일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

Tags more

Archives

Today

Total

관리 메뉴

qcoding

[AI논문리뷰-강화학습] Dreamer 4 - 확장 가능한 세계 모델 안에서 에이전트를 학습시켜 Minecraft 다이아몬드를 오프라인으로 최초 획득 본문

AI논문리뷰-강화학습

[AI논문리뷰-강화학습] Dreamer 4 - 확장 가능한 세계 모델 안에서 에이전트를 학습시켜 Minecraft 다이아몬드를 오프라인으로 최초 획득

Qcoding 2026. 5. 2. 10:16

논문 Training Agents Inside of Scalable World Models 저자 Hafner*, Yan*, Lillicrap (Google DeepMind, 공동 1저자) 발표 arXiv:2509.24527, 2025년 9월 arXiv 2509.24527

📄 한 문단 요약

Dreamer 4는 Google DeepMind가 2025년 9월 발표한 세계 모델 강화학습 프레임워크다. 핵심은 세 단계다: ① 2B 파라미터 확산 기반 세계 모델(Causal Tokenizer + Interactive Dynamics)을 대규모 비디오로 사전훈련, ② 최소한의 레이블 데이터로 파인튜닝해 정책·보상 예측 헤드 추가, ③ 실제 환경 없이 세계 모델 안에서만 강화학습(PMPO). 결과적으로 오프라인 데이터만으로 Minecraft에서 다이아몬드를 최초로 획득(0.7% 성공률, 2만 개 이상 행동 시퀀스)했다. Shortcut Forcing으로 4 샘플링 스텝에서 64 스텝과 동등한 품질을 달성해 단일 H100 GPU에서 21 FPS 실시간 추론이 가능하다.

이 논문은 무엇을 해결하려고 했나?

DreamerV1·V2·V3는 세계 모델 안에서 행동을 학습한다는 핵심 아이디어를 정립했다. 그러나 기존 Dreamer 시리즈에는 세 가지 한계가 있었다.

첫째, 환경 상호작용 의존성. 모든 이전 Dreamer는 실제 환경과 상호작용한 데이터로 세계 모델을 처음부터 학습했다. Minecraft처럼 다이아몬드를 캐는 데 20,000 행동 이상의 장기 계획이 필요한 환경에서 충분한 상호작용 데이터를 모으는 것 자체가 큰 장벽이다.

둘째, 세계 모델 표현력의 한계. RSSM 기반 잠재 모델은 저차원 압축 표현을 사용해 픽셀 수준의 복잡한 동역학(블록 파괴, 인벤토리 관리, 제작 테이블 상호작용)을 정확히 시뮬레이션하기 어렵다.

셋째, 추론 속도. 기존 확산 모델 기반 세계 모델은 수십~수백 스텝의 디노이징이 필요해 실시간 상호작용이 불가능했다.

Dreamer 4는 이 세 문제를 대규모 비디오 사전훈련 + Shortcut Forcing 고속 추론 + 오프라인 RL로 동시에 해결한다.

배경지식과 핵심 키워드

Flow Matching & Shortcut Model Flow Matching은 확산 모델의 대안. 노이즈 θ₀ ~ N(0,I)에서 데이터 θ₁로 직선 경로 θ = (1-σ)θ₀ + σθ₁를 따라 벡터장 v(θ,σ)를 학습한다. Shortcut Model은 임의의 스텝 크기 δ로 한 번에 더 큰 이동이 가능하도록 자기 일관성 제약을 추가한 확장이다. δ=1이면 1스텝, δ=0.25면 4스텝만으로 완전한 샘플 생성이 가능하다. Dreamer 4는 이를 세계 모델에 적용해 δ=4 스텝(δ=1/4의 역수)으로 프레임당 생성, 64스텝 확산 품질의 95% 이상을 달성했다.	Shortcut Forcing Objective Dreamer 4의 핵심 훈련 목표. Shortcut Model에 행동 컨디셔닝을 추가한 것이다: θ̂₁ = θ(θ̃, σ, δ, a). 주어진 행동 a로 미래 프레임을 예측하도록 학습한다. 손실: σ=σ_min이면 MSE, 그 외에는 (1-σ)²·\|\|v̂ − sg(v₁+v₂)/2\|\|²₂. 큰 스텝 크기는 중간 예측의 평균으로 지도된다. 이 목표가 세계 모델이 행동을 올바르게 따르면서 빠르게 프레임을 생성하는 능력을 동시에 학습하게 한다.
Causal Tokenizer 84×84 이미지가 아닌 640×360 고해상도 비디오 프레임을 16×16 패치로 나눠 256개의 잠재 토큰으로 압축한다. 400M 파라미터. 손실: L = L_MSE + 0.2·L_LPIPS. LPIPS(지각 유사도)가 세밀한 텍스처 재구성을 돕는다. "Causal" 특성으로 프레임을 하나씩 순차 디코딩할 수 있다. 이 덕분에 21 FPS 실시간 인터랙티브 추론이 가능하다.	Interactive Dynamics (1.6B 파라미터) 행동(키보드 23개 이진 분포 + 마우스 11×11=121 범주)과 잠재 토큰으로 이뤄진 인터리빙 시퀀스를 처리하는 Transformer. 컨텍스트 9.6초(192 프레임). 행동, 노이즈 수준, 스텝 크기를 모두 입력으로 받아 Shortcut Forcing으로 다음 프레임 잠재 표현을 디노이징한다. 파인튜닝 단계에서 태스크 토큰을 삽입하고, 행동(π), 보상(ρ), 가치(V) 헤드를 추가해 에이전트로 전환한다.
PMPO (Policy Mirror Policy Optimization) 세계 모델 안에서 강화학습을 위한 정책 최적화 목표. 어드밴티지 양수 상태(D₊)에서는 행동 확률 증가, 음수(D₋)에서는 감소하도록 비대칭 업데이트한다. L = [Σ_{D₋} (1/\|D₋\|) ln π(a\|s)] − [Σ_{D₊} (1/\|D₊\|) ln π(a\|s)] + β·KL[π(a\|s) \|\| π_prior]. β=0.5, KL 스케일 α=0.3. PPO의 Clip 대신 행동 클로닝 사전 분포(π_prior)와의 KL 거리로 정책이 과도하게 변하는 것을 방지한다.	Multi-Token Prediction (MTP) 행동과 보상 헤드를 파인튜닝할 때 단일 다음 토큰 예측 대신 n=8 스텝 앞을 동시에 예측한다. L = Σ_{t=0}^{7} [−ln π(a_{t+1}\|s) − ln ρ(r_{t+1}\|s)]. MTP는 헤드가 단기 행동이 아닌 장기 결과를 고려하게 한다. n=8 실험에서 n=1보다 Minecraft 성공률이 높았다. 가치 헤드는 별도 TD 학습: L = Σ_{t=1}^{T} −ln π(V_target\|s), 할인율 γ=0.997.
오프라인 다이아몬드 챌린지 Minecraft에서 빈 인벤토리로 시작해 60분 안에 다이아몬드를 캐는 태스크. 목재 채집 → 막대 제작 → 나무 곡괭이 → 조약돌 → 돌 곡괭이 → 철 채굴 → 철 제련 → 철 곡괭이 → 다이아몬드 순서의 계층적 목표 달성이 필요하다. 전체 시퀀스가 20,000 행동 이상 걸린다. 이전에는 어떤 에이전트도 오프라인 데이터만으로 다이아몬드에 도달하지 못했다. Dreamer 4가 최초로 0.7% 성공률 달성. 비교 방법: VPT(Microsoft), BC(행동 클로닝), VLA(Gemma 3 기반), WM+BC. 모두 철 곡괭이 단계를 크게 못 넘었다.	액션 일반화 (Action Generalization) 2541시간 전체 비디오 중 100시간(4%)의 행동 레이블만으로 학습해도 전체 데이터 대비 85% PSNR 성능을 달성한다. 레이블 없는 비디오가 시각적 동역학 이해를 크게 돕는다. 행동 외삽(extrapolation): Overworld 행동만 학습해도 Nether/End 차원(라벨 없이 비디오만 있는 환경)에서 전체 모델의 76~80% 성능 달성. 행동 컨디셔닝이 본 적 없는 환경에 일반화된다. 이 결과는 레이블이 매우 비싼 환경에서도 적은 비용으로 행동 제어 세계 모델을 구축할 수 있음을 시사한다.

핵심 인사이트

Dreamer 4의 가장 파격적인 설계 결정은 "환경 없는 RL"이다. 기존 Dreamer는 세계 모델 안에서 행동을 학습하지만, 그 세계 모델 자체는 실제 환경 상호작용으로 학습했다. Dreamer 4는 여기서 한 발 더 나아가 세계 모델 사전훈련조차 오프라인 비디오로만 하고, 실제 환경 상호작용을 완전히 제거했다.

기존 방법의 한계

DreamerV1~V3: 뛰어난 세계 모델 RL이지만 세계 모델 자체를 온라인으로 학습해야 한다. Minecraft처럼 매우 긴 시퀀스와 계층적 목표가 필요한 환경에서는 충분한 상호작용 데이터 수집 자체가 병목이다.

VPT (Video PreTraining, OpenAI): 대규모 비디오로 사전훈련 후 Minecraft에 적용했지만 행동 클로닝 수준에 머물고, 다이아몬드 획득에는 실패했다. 세계 모델 안에서 상상 훈련을 하지 않는다.

기존 Minecraft 세계 모델 (Oasis, Lucid-v1, MineWorld): 생성 품질이 개선됐지만 실시간 속도가 느리고(2

~~20 FPS, 일부는 2 FPS), 행동 컨디셔닝의 정확도가 낮다. 16개 게임 메카닉 테스트에서 5~~

14개 성공 vs Dreamer 4는 14개 성공.

Diffusion Forcing: 확산 기반 비디오 세계 모델이지만 64 디노이징 스텝이 필요해 실시간 불가. Dreamer 4의 Shortcut Forcing은 4 스텝으로 동등한 품질을 달성해 16배 빠르다.

제안 방법의 핵심 아이디어

Dreamer 4는 3단계 파이프라인으로 동작한다:

Dreamer 4 Algorithm (논문 내용을 바탕으로 재구성)

Phase 1 — 세계 모델 사전훈련 (비디오 2541시간 + 100시간 액션)
Causal Tokenizer 학습	비디오 프레임 → 256 잠재 토큰. L = L_MSE + 0.2·L_LPIPS
Interactive Dynamics 학습	Shortcut Forcing 목표: 행동 컨디셔닝 + 4 스텝 빠른 디노이징
Phase 2 — 에이전트 파인튜닝 (Contractor 데이터, 레이블 있음)
태스크 토큰 삽입	Dynamics Transformer에 정책(π), 보상(ρ) 헤드 추가
MTP 파인튜닝	n=8 다음 행동·보상 동시 예측. 행동 클로닝 초기화
Phase 3 — 상상 강화학습 (환경 없음)
세계 모델 롤아웃	세계 모델 안에서 H 스텝 상상. 실제 환경 미사용
PMPO + TD 학습	어드밴티지 기반 PMPO로 정책 최적화. 가치: TD λ, γ=0.997

Shortcut Forcing의 핵심 수식:

// σ = σ_min (기본 재구성 손실)
L = ||θ̂₁ − θ₁||²₂

// σ > σ_min (큰 스텝 크기 자기 일관성)
L = (1 − σ)² · ||v̂ − sg(v₁ + v₂)/2||²₂
w(σ) = 0.9 + 0.1σ   // σ가 클수록 더 높은 손실 가중치

// 결과: δ=4 스텝 ≈ 64 스텝 확산 품질 (FVD: 57 vs 확산 306)

논문 그림/표로 이해하기

※ 본 논문(2025년 9월)은 ar5iv HTML 변환에 오류가 있어 원본 그림을 제공할 수 없습니다. 아래는 논문 내용을 바탕으로 재구성한 구조도입니다.

논문 내용을 바탕으로 재구성한 Dreamer 4 아키텍처 흐름도

비디오 입력

640×360, 20 FPS
레이블 없음 가능

→

Causal Tokenizer

400M params
256 잠재 토큰/프레임

→

Interactive Dynamics

1.6B params, Transformer
Shortcut Forcing (δ=4)

→

에이전트 헤드

π(행동) + ρ(보상)
+ V(가치) 예측

행동 입력 (키보드 23 이진 + 마우스 121 범주) ↑ 전 구성 요소에 컨디셔닝

실험 설정과 결과 해석

오프라인 다이아몬드 챌린지 주요 결과 (60분 에피소드, 1000회 평균):

에이전트	목재	제작대	철 곡괭이	다이아몬드
VPT (finetuned)	—	—	~5%	0%
VLA (Gemma 3)	33.8%	77.3%	11%	0%
WM + BC	30.3%	91.6%	8.8%	0%
✦ Dreamer 4	~97%	93.5%	29%	0.7% 🏆

논문 Figure 3 / Table 7 재구성. 0.7% 다이아몬드 획득은 오프라인 데이터 전용 방법 중 역사상 최초.

Shortcut Forcing vs Diffusion Forcing (FVD, 낮을수록 좋음):

방법	샘플링 스텝	FVD ↓	실시간 여부
Diffusion Forcing	64	306	❌
Shortcut Forcing (4 steps)	4	~320	✅ 21 FPS
✦ Dreamer 4 전체	4	57	✅ 21 FPS

논문 Figure 8 재구성. 전체 아키텍처(Shortcut Forcing + Causal Tokenizer)가 시너지를 내 FVD 57 달성.

세계 모델 게임 메카닉 벤치마크 (Table 1, 16개 테스트):

MineWorld: 0/16, Lucid-v1: 0/16, Oasis (small/large): 5/16 → Dreamer 4: 14/16

핵심 인사이트

Dreamer 4의 FVD 57은 Diffusion Forcing 64스텝(FVD 306)보다 5배 이상 낮다 — 4 스텝만 사용하면서. 이 숫자가 중요한 이유는, 세계 모델의 품질이 에이전트 성능에 직결되기 때문이다. FVD 57이 가능해진 이유는 Shortcut Forcing 단독이 아니라 Causal Tokenizer + Interactive Dynamics + Shortcut Forcing이 함께 작동하기 때문이다.

한계와 비판적 관점

1. 단기 컨텍스트 (9.6초): Minecraft 다이아몬드 획득은 20,000 행동 이상의 장기 계획이 필요하지만, Dreamer 4의 컨텍스트는 192 프레임(9.6초)에 불과하다. 장기 메모리 없이 미리 만든 도구를 잊어버리거나 반복 행동을 하는 문제가 남는다.

2. 0.7% 성공률: 다이아몬드 획득 자체는 역사적 이정표지만, 실용적 에이전트로는 아직 갈 길이 멀다. 같은 60분 기회에 인간 Minecraft 플레이어는 훨씬 높은 성공률을 보인다.

3. 비공개 Contractor 데이터: 학습에 사용한 전문 Contractor 데이터셋의 정확한 구성과 품질이 공개되지 않았다. 재현성 검증이 어렵다.

4. 대규모 컴퓨팅 요구: 256~1024 TPU-v5p가 필요한 사전훈련은 대부분의 연구자에게 현실적이지 않다. 공개 체크포인트가 없으면 활용도가 제한된다.

5. Minecraft 특화: 현재 결과는 Minecraft와 로보틱스/주방 환경에 국한된다. 일반 인터넷 비디오나 다양한 환경으로의 전이가 충분히 검증되지 않았다.

구현하거나 응용한다면 무엇을 봐야 하나?

핵심 설계 결정과 재현 포인트:

Shortcut Forcing 구현: 일반 Diffusion Forcing 코드에 스텝 크기 δ 인자를 추가하고, 큰 δ에서 중간 예측 평균으로 타깃을 구성하는 자기 일관성 손실을 추가한다. Flow Matching의 직선 경로 가정이 이를 수학적으로 단순하게 만든다.
Causal Tokenizer 설계: 인과 어텐션(causal attention)을 사용해 과거 프레임만 참조하도록 구성해야 실시간 스트리밍 디코딩이 가능하다. LPIPS 손실이 MSE만으로는 과하게 블러된 재구성을 개선한다.
MTP + PMPO 조합: 행동 클로닝(MTP n=8)으로 초기화한 뒤 PMPO로 파인튜닝하는 순서가 중요하다. PMPO 단독으로 처음부터 학습하면 불안정하다.
소규모 적용: 전체 Dreamer 4를 재현하기보다 Shortcut Forcing을 DreamerV3에 통합하는 것이 현실적인 출발점이다. DreamerV3 공식 코드베이스(danijar/dreamerv3)를 기반으로 Dynamics를 Flow Matching 기반으로 교체하는 방향으로 실험 가능하다.

한 줄 결론과 다음에 읽을 논문

한 줄 결론: Dreamer 4는 2B 파라미터 확산 기반 세계 모델을 오프라인 비디오로 사전훈련하고 세계 모델 안에서만 강화학습해, 실제 환경 없이 Minecraft 다이아몬드를 최초로 획득 — 확장 가능한 세계 모델이 실제 에이전트 훈련 플랫폼이 될 수 있음을 보였다.

다음에 읽을 논문:

DreamerV3 (2023, arXiv:2301.04104): Dreamer 4의 직접 선행. 단일 하이퍼파라미터로 다양한 환경 커버. symlog 정규화가 핵심 기여.
Shortcut Models (arXiv:2404.19756): Dreamer 4가 Shortcut Forcing의 기반으로 삼은 원논문. Flow Matching의 빠른 샘플링 확장.
Diffusion Forcing (arXiv:2407.01392): 비디오 예측에 확산을 적용한 Dreamer 4의 또 다른 선행 연구. 인과 구조와 노이즈 레벨 컨디셔닝.

참고 자료:

논문 원문: arXiv:2509.24527
저자 Danijar Hafner 홈페이지: danijar.com
DreamerV3 (공식 구현 기반): github.com/danijar/dreamerv3

저작자표시 (새창열림)

'AI논문리뷰-강화학습' 카테고리의 다른 글

[AI논문리뷰-강화학습] Eureka - GPT-4가 보상 함수를 직접 코딩해 29개 로봇 태스크에서 인간 전문가를 넘어선 LLM 기반 자동 보상 설계 (1)	2026.05.02
[AI논문리뷰-강화학습] DreamerV2 - 이산 잠재 변수와 KL 균형으로 Atari 55개 게임을 인간 수준으로 정복한 세계 모델 RL (1)	2026.05.02
[AI논문리뷰-강화학습] Dreamer - 잠재 공간에서 상상하고 역전파로 행동을 학습한 모델 기반 강화학습 (0)	2026.05.02
[AI논문리뷰-강화학습] InstructGPT - PPO와 인간 피드백으로 GPT-3를 지시 따르는 모델로 정렬한 RLHF의 교과서 (0)	2026.05.02
[AI논문리뷰-강화학습] MuZero - 게임 규칙을 모르면서 바둑·체스·Atari를 동시에 정복한 모델 기반 강화학습 (0)	2026.05.02

'AI논문리뷰-강화학습' Related Articles

Comments

qcoding

[AI논문리뷰-강화학습] Dreamer 4 - 확장 가능한 세계 모델 안에서 에이전트를 학습시켜 Minecraft 다이아몬드를 오프라인으로 최초 획득 본문

[AI논문리뷰-강화학습] Dreamer 4 - 확장 가능한 세계 모델 안에서 에이전트를 학습시켜 Minecraft 다이아몬드를 오프라인으로 최초 획득

이 논문은 무엇을 해결하려고 했나?

배경지식과 핵심 키워드

배경지식과 핵심 키워드

기존 방법의 한계

제안 방법의 핵심 아이디어

논문 그림/표로 이해하기

실험 설정과 결과 해석

한계와 비판적 관점

구현하거나 응용한다면 무엇을 봐야 하나?

한 줄 결론과 다음에 읽을 논문

'AI논문리뷰-강화학습' 카테고리의 다른 글

티스토리툴바