qcoding

[AI논문리뷰-강화학습] InstructGPT - PPO와 인간 피드백으로 GPT-3를 지시 따르는 모델로 정렬한 RLHF의 교과서 본문

AI논문리뷰-강화학습

[AI논문리뷰-강화학습] InstructGPT - PPO와 인간 피드백으로 GPT-3를 지시 따르는 모델로 정렬한 RLHF의 교과서

Qcoding 2026. 5. 2. 09:40
반응형
논문  Training language models to follow instructions with human feedback 저자  Ouyang et al. (OpenAI) 학회/연도  NeurIPS 2022 arXiv  2203.02155

📄 한 문단 요약

InstructGPT는 OpenAI가 2022년 발표한 논문으로, GPT-3를 사람의 지시를 잘 따르도록 정렬(alignment)하는 방법을 제시한다. 핵심은 RLHF(Reinforcement Learning from Human Feedback) 3단계 파이프라인이다: ① 사람이 작성한 시범 데이터로 SFT, ② 인간 선호도 비교 데이터로 보상 모델(RM) 훈련, ③ PPO로 LLM을 RM 점수 최대화 방향으로 파인튜닝. 결과적으로 1.3B InstructGPT가 175B GPT-3보다 인간 평가자에게 더 선호받았으며, 거짓 정보 생성이 절반으로 줄었다. 이 논문은 ChatGPT·GPT-4의 직접적 선행 연구이자, 현대 LLM 정렬 기술의 교과서다.

이 논문은 무엇을 해결하려고 했나?

GPT-3는 방대한 텍스트 데이터로 언어 모델링을 훈련받았다. 다음 토큰을 예측하는 것이 목표였기 때문에, 사용자가 원하는 것을 하라는 지시를 따르기보다 학습 데이터의 통계적 패턴을 따르는 경향이 강하다. "프랑스의 수도는?"이라고 물으면 "프랑스의 수도는 파리이고, 독일의 수도는 베를린이다"처럼 질문을 이어나가는 식이다.

이를 **정렬 문제(alignment problem)**라 부른다. 모델이 최적화하는 목표(next-token prediction)와 사용자가 원하는 것(도움이 되고, 해롭지 않으며, 정직한 응답) 사이의 불일치다. 아무리 모델이 크고 언어 능력이 뛰어나도 이 간극은 파라미터를 늘린다고 해소되지 않는다.

InstructGPT는 이 문제에 정공법으로 접근한다. 사람이 실제로 원하는 응답에 대한 피드백을 수집하고, 그 피드백을 보상 신호로 변환해 강화학습(PPO)으로 모델을 직접 정렬한다.

배경지식과 핵심 키워드

배경지식과 핵심 키워드

RLHF (Reinforcement Learning from Human Feedback)
인간의 선호도 비교 데이터로 보상 모델을 훈련하고, 그 보상 모델을 기반으로 RL로 언어 모델을 최적화하는 파이프라인. InstructGPT 이전에도 연구됐지만(Christiano et al. 2017, Stiennon et al. 2020) 이 논문이 대규모 LLM에 적용한 표준 레시피를 확립했다.
RLHF에서 인간은 두 응답 중 어느 것이 더 좋은지만 판단한다. 절대 점수보다 상대 비교가 훨씬 일관성 있는 레이블이기 때문이다.
ChatGPT와 GPT-4도 이 논문과 동일한 RLHF 3단계를 따른다. 현대 AI 정렬의 핵심 방법론이다.
SFT (Supervised Fine-Tuning)
전문 레이블러(labeler)가 직접 작성한 이상적인 응답 ~13,000개로 GPT-3를 파인튜닝하는 1단계. 16 에포크, cosine lr decay, residual dropout 0.2.
SFT 단독으로도 GPT-3 기본 모델보다 훨씬 낫지만, 레이블된 데이터가 적어 편향이 있고 레이블러의 주관적 선호가 과적합될 수 있다.
SFT 모델(175B)이 이후 RM 훈련과 PPO의 시작점(initialization)이 된다.
보상 모델 (Reward Model, RM)
두 응답 중 어느 것이 더 좋은지 인간이 비교한 ~33,000개 데이터로 훈련된 6B 파라미터 모델. 출력은 스칼라 보상값이다.
훈련 목적함수: L(θ) = −E[(r_θ(x, y_w) − r_θ(x, y_l) − log σ)]로, 선호된 응답의 보상이 비선호 응답보다 높도록 학습한다. y_w는 선호, y_l은 비선호 응답.
6B를 쓴 이유: RM이 175B와 같은 크기면 RL 루프에서 너무 무겁고, 작으면 품질이 낮다. 6B가 실용적 균형점이었다.
PPO-ptx (PPO + 사전훈련 목적함수)
RM 보상을 최대화하되, KL 페널티와 언어 모델링 손실을 동시에 적용한다: r = r_RM(x, y) − β·KL(π_RL ‖ π_SFT) + γ·log π_RL(x).
KL 페널티(β)는 PPO의 Clip과 유사한 역할 — 정책이 SFT 모델에서 너무 멀리 벗어나 "보상 해킹"(RM이 높게 주는 이상한 출력)을 방지한다.
γ·log π_RL(x) 항이 "ptx" 부분으로, 사전훈련 분포를 유지해 NLP 벤치마크 성능 저하(alignment tax)를 줄인다.
보상 해킹 (Reward Hacking)
RM이 높은 점수를 주는 방향으로 과도하게 최적화될 때, 실제로는 나쁜 출력이 RM을 속이는 현상. 예: 매우 길고 복잡해 보이지만 내용은 없는 텍스트.
KL 페널티가 이를 방지한다. β 값이 작으면 보상 해킹 위험, 크면 SFT와 거의 같아져 RL 효과가 없다.
논문에서 KL-보상 Pareto frontier를 측정해 최적 β를 설정했다. 이 트레이드오프가 RLHF 구현에서 가장 까다로운 부분 중 하나다.
Alignment Tax
RLHF로 정렬을 개선했을 때 기존 NLP 벤치마크(SQuAD, HellaSwag 등) 성능이 약간 떨어지는 현상. 정렬을 위해 치르는 "세금"이다.
PPO-ptx는 사전훈련 데이터 혼합(γ 항)으로 이를 완화한다. 단순 PPO 대비 벤치마크 성능 저하를 거의 제거했다.
완전히 제거하지는 못했다. 여전히 일부 벤치마크에서 GPT-3 기본 모델 대비 하락이 관찰된다. 정렬과 일반 능력 사이의 긴장은 현재진행형 연구 주제다.
레이블러 (Labeler) 데이터 수집
약 40명의 전문 계약직 레이블러(Upwork, Scale AI)가 SFT 시범 응답과 RM 비교 데이터를 생성했다. 성능 테스트로 스크리닝된 인원만 채용.
레이블러 간 동의율: 훈련 레이블러 72.6±1.5%, 별도 평가 레이블러 77.3±1.3%. 낮지 않지만 주관적 편향이 존재한다.
레이블러 구성이 모델 가치관을 결정짓는다는 점에서, 누가 레이블링하는가는 AI 윤리 관점에서 중요한 문제다.
3H 기준 (Helpful, Harmless, Honest)
레이블러가 응답을 평가할 때 사용하는 세 가지 기준. 도움됨(유저 요청 충족), 무해함(해로운 내용 없음), 정직함(사실 기반, 불확실한 경우 인정).
세 기준이 항상 일치하지는 않는다. 유저가 해로운 정보를 요청할 때 도움을 주면 helpful이지만 harmless에 반하는 식이다.
논문은 이 트레이드오프를 명시하고, 레이블러에게 명확한 가이드라인을 제공했다. 이 3H 프레임워크는 이후 AI 안전 연구의 표준이 됐다.
GPT-3 기반 모델 크기별 비교
InstructGPT는 1.3B, 6B, 175B 세 크기로 훈련됐다. 놀라운 점은 1.3B InstructGPT가 175B GPT-3보다 사람 평가에서 더 선호됐다는 것이다.
이는 모델 크기보다 정렬 방법이 더 중요할 수 있다는 강력한 증거다. 100배 작은 모델이 더 잘 정렬되면 더 선호받는다.
그러나 복잡한 추론이나 코딩 능력은 큰 모델이 여전히 우위다. 정렬과 능력은 별개 축이다.
TruthfulQA / RealToxicityPrompts
TruthfulQA: 인간이 자주 잘못 믿는 사실을 묻는 817개 질문 벤치마크. InstructGPT가 GPT-3보다 약 2배 더 정확한 답변을 제공했다.
RealToxicityPrompts: 독성 텍스트 생성을 유도하는 프롬프트 벤치마크. InstructGPT는 정중하게 요청하면 25% 덜 독성적인 출력을 생성했다.
두 지표 모두 RLHF가 단순 언어 모델링 목표에서 벗어나 "사람이 원하는 방향"으로 모델을 이동시키는 데 효과적임을 보여준다.

핵심 인사이트

InstructGPT의 가장 중요한 교훈은 "크기보다 정렬"이다. 1.3B 파라미터 모델이 175B GPT-3보다 선호받았다. SFT(~13k 예시) + RM(~33k 비교) + PPO 세 단계가 수천억 파라미터의 능력을 실제 사용 가능한 형태로 전환시킨다. 이 파이프라인이 ChatGPT와 GPT-4의 직접적 전신이다.

기존 방법의 한계

기본 GPT-3(지시 파인튜닝 없음): 언어 모델링 손실로 훈련되어 사용자 지시보다 학습 데이터의 분포를 따른다. 질문에 질문으로 답하거나, 지시를 이어 작성하거나, 해롭거나 거짓된 내용을 유창하게 생성한다.

Few-shot prompting: 프롬프트에 예시를 넣어 GPT-3를 유도하는 방법이다. 효과가 있지만 긴 프롬프트가 필요하고, 민감한 주제에서는 여전히 해로운 출력을 생성한다. 지시 따르기 자체가 학습된 것이 아니라 패턴 매칭 수준이다.

단순 지시 파인튜닝(FLAN, T0): 다양한 NLP 태스크로 파인튜닝해 지시 따르기를 어느 정도 개선했다. 하지만 인간이 실제로 원하는 것(helpfulness)과 NLP 벤치마크 성능이 항상 일치하지 않는다. Likert 점수 비교에서 InstructGPT가 FLAN과 T0를 뚜렷이 앞섰다.

순수 SFT: 시범 데이터만으로 파인튜닝하면 레이블러의 주관적 편향과 소규모 데이터(~13k)의 한계로 일반화가 어렵다. RM과 PPO의 추가가 결정적인 차이를 만든다.

제안 방법의 핵심 아이디어

RLHF 3단계 파이프라인:

1단계 — SFT (Supervised Fine-Tuning):

입력: OpenAI API 프롬프트 + 레이블러 직접 작성 프롬프트 ~13,000개
출력: 레이블러가 작성한 이상적인 응답
학습: GPT-3 → SFT 모델 (16 에포크, cosine lr decay)

2단계 — RM (Reward Model) 훈련:

입력: 프롬프트 x, 응답 쌍 (y_w, y_l) ~33,000개
목적함수: L = −log σ(r_θ(x, y_w) − r_θ(x, y_l))
출력: 응답 품질 스칼라 점수 r(x, y)
모델 크기: 6B (SFT 모델에서 초기화)

3단계 — PPO-ptx (RL Fine-Tuning):

보상 = r_RM(x, y) − β·KL(π_RL ‖ π_SFT) + γ·log π_RL(x)

- r_RM: RM이 준 보상 점수
- β·KL: SFT에서 멀어지는 페널티 (보상 해킹 방지)
- γ·log π_RL(x): 사전훈련 분포 유지 (alignment tax 완화)

β = 0.02, γ = 27.8 (API 분포 기준)

논문 그림/표로 이해하기

InstructGPT RLHF 3단계 파이프라인: SFT → 보상 모델 → PPO 강화학습
원문 Figure 2: RLHF 3단계 파이프라인 — SFT, 보상 모델 훈련, PPO 강화학습. 출처: Ouyang et al., "Training language models to follow instructions with human feedback", NeurIPS 2022. arXiv:2203.02155 — arXiv 라이선스 하에 인용.

Figure 2는 InstructGPT 전체 파이프라인을 한 장으로 보여주는 가장 중요한 그림이다. 왼쪽 Step 1에서 레이블러가 이상적인 응답을 직접 작성해 GPT-3를 SFT한다. Step 2에서 여러 응답에 순위를 매겨 보상 모델을 훈련한다. Step 3에서 PPO가 RM 보상을 최대화하며 최종 InstructGPT를 만든다.

다양한 모델 크기별 175B SFT 모델 대비 선호도 비교 winrate
원문 Figure 1: API 프롬프트 분포에서 175B SFT 모델 대비 각 모델의 승률. 출처: Ouyang et al., NeurIPS 2022. arXiv:2203.02155 — arXiv 라이선스 하에 인용.

Figure 1의 핵심은 왼쪽 끝과 오른쪽을 비교하는 것이다. 175B GPT-3(기본 모델)는 175B SFT 대비 승률이 50% 이하 — 즉 사람들이 선호하지 않는다. 반면 1.3B InstructGPT가 175B SFT보다 더 선호받는다. 모델이 100배 이상 작아도 RLHF 정렬이 적용되면 더 유용하다는 핵심 결과다.

API 프롬프트와 InstructGPT 프롬프트 분포에서 모델별 선호도 winrate 상세 비교
원문 Figure 3: API 및 InstructGPT 프롬프트 분포에서 선호도 상세 비교. 출처: Ouyang et al., NeurIPS 2022. arXiv:2203.02155 — arXiv 라이선스 하에 인용.

Figure 3은 프롬프트 분포(API vs InstructGPT 전용)별로 세분화된 결과다. 두 분포 모두에서 InstructGPT(PPO-ptx)가 SFT, GPT-3, FLAN, T0을 일관되게 앞선다. 특히 InstructGPT 전용 프롬프트에서 차이가 더 커지는데, 모델이 특정 스타일의 지시에 특화됐음을 보여준다.

실험 설정과 결과 해석

선호도 평가 (API 프롬프트 분포):

모델 파라미터 vs 175B SFT 승률
GPT-3 (기본) 175B ~43%
GPT-3 few-shot 175B ~54%
InstructGPT (SFT only) 175B 기준선 (50%)
InstructGPT (PPO-ptx) 1.3B ~57%
✦ InstructGPT (PPO-ptx) 175B ~71%
논문 Figure 1 결과 재구성. 175B SFT 모델을 기준(50%)으로 한 승률. 1.3B PPO-ptx가 175B GPT-3를 앞선다.

안전성 지표:

  • TruthfulQA: InstructGPT가 GPT-3보다 ~2배 더 정직한 답변. 닫힌 도메인 환각(closed-domain hallucination) 21% vs GPT-3 41%.
  • 독성(Toxicity): 정중한 프롬프트에서 25% 더 낮은 독성. 하지만 독성 출력을 유도하는 프롬프트에서는 여전히 독성 생성 가능.
  • Alignment Tax: NLP 벤치마크 성능이 GPT-3 대비 약간 하락. PPO-ptx가 단순 PPO보다 하락 폭이 작다.

핵심 인사이트

가장 중요한 수치는 "1.3B InstructGPT > 175B GPT-3"다. 100배 이상 크기 차이를 정렬 방법 하나가 역전시켰다. 이 결과는 앞으로 LLM 개발에서 "얼마나 크게 만드는가"만큼 "어떻게 정렬하는가"가 핵심이라는 패러다임 전환을 알린다.

한계와 비판적 관점

1. 레이블러 편향: ~40명의 레이블러(주로 영어권, 특정 문화적 배경)의 선호가 전체 모델의 가치관을 결정한다. 다양성 부족은 특정 집단에게 덜 유용하거나 편향된 모델을 만들 수 있다. 논문도 이를 명시적 한계로 인정한다.

2. 보상 해킹의 지속성: KL 페널티로 완화했지만 완전히 해결하지는 못했다. 모델이 길고 자신감 있어 보이는 응답을 생성해 RM을 속이는 패턴이 여전히 관찰됐다.

3. "사용자가 원하는 것"≠"사회에 좋은 것": 사용자가 원하는 유해한 정보를 줘야 helpful하다. 개인 이익과 사회적 해악 사이의 충돌을 레이블러 가이드라인만으로 해결하기 어렵다.

4. 비공개 데이터와 재현성: 훈련에 쓴 프롬프트와 레이블러 데이터가 공개되지 않아 독립적 재현이 불가능하다. 오픈소스 RLHF(TRL, OpenAssistant)가 이후 등장하지만 원본과 정확히 같지는 않다.

5. RL 학습의 불안정성: PPO가 LLM 파인튜닝에서 하이퍼파라미터에 매우 민감하다. KL β, γ, learning rate, 미니배치 크기 조합이 조금만 틀려도 학습이 발산하거나 성능이 급락한다.

구현하거나 응용한다면 무엇을 봐야 하나?

오픈소스 RLHF 스택:

  • TRL (Hugging Face): Hugging Face의 RLHF 라이브러리. SFTTrainer, RewardTrainer, PPOTrainer 세 클래스로 이 논문의 3단계를 그대로 구현할 수 있다. 가장 접근성이 높다.
  • OpenAssistant / Dolly: 커뮤니티가 공개 데이터로 InstructGPT를 재현하려 한 프로젝트들.
  • DeepSpeed-Chat: Microsoft의 대규모 RLHF 분산 학습 구현.

핵심 구현 포인트:

  1. RM 데이터 품질: SFT보다 RM 비교 데이터의 품질이 최종 성능에 더 큰 영향을 미친다. 레이블러 교육과 가이드라인 설계에 리소스를 집중해야 한다.
  2. KL β 튜닝: β가 너무 작으면 보상 해킹, 너무 크면 SFT와 동일. 보통 0.01~0.1 범위에서 KL-보상 곡선을 보며 설정한다. 환경마다 다르다.
  3. RM 크기 선택: 논문은 6B를 사용했지만, 소규모 실험에서는 더 작은 모델도 가능하다. RM이 정책 모델보다 너무 작으면 보상 해킹이 쉬워진다.
  4. ptx 혼합 비율 γ: 사전훈련 데이터를 섞는 비율을 조정하지 않으면 alignment tax가 커진다. 하지만 너무 높으면 정렬 효과가 줄어든다.

실용 팁: 작은 모델(1B 미만)에서 먼저 전체 파이프라인을 검증하고, 성능이 확인된 뒤 큰 모델로 스케일업하는 것이 효율적이다.

한 줄 결론과 다음에 읽을 논문

한 줄 결론: InstructGPT는 SFT + RM + PPO 세 단계로 LLM을 사람의 의도에 정렬시키는 RLHF 파이프라인을 확립했으며, 100배 작은 모델이 정렬 덕분에 더 선호받는 것을 증명해 AI 개발에서 "정렬"이 독립적인 핵심 축임을 보였다.

다음에 읽을 논문:

  • Constitutional AI (Anthropic, 2022): 인간 레이블 대신 AI가 자신의 출력을 헌법(원칙)으로 평가하는 RLAIF 방법. InstructGPT의 레이블러 의존성을 줄인다.
  • RLHF 이론 (Christiano et al. 2017): InstructGPT의 직접 선행 연구. Atari에서 사람 피드백으로 보상을 학습한 초기 RLHF.
  • DPO (Direct Preference Optimization, 2023): PPO 없이 선호도 데이터에서 직접 정책을 최적화. RLHF보다 구현이 단순하고 안정적이다.

참고 자료:

반응형
Comments