머신러닝 딥러닝

[강화학습-1] 강화학습이란?

Qcoding 2025. 5. 28. 16:57
반응형

1. 강화학습 개요

“강화(Reinforcement)”라는 단어처럼, 강화학습(Reinforcement Learning, RL)행동(액션) 을 취한 뒤 보상(Reward) 을 받고, 그 보상 신호를 토대로 다음 행동 전략(정책, Policy) 을 조금씩 개선해 가는 학습 패러다임입니다. 인간·동물이 시행착오를 통해 배우는 과정을 수학적으로 모델링한 것이 특징이죠.

핵심 질문
“어떤 행동을 하면 장기적으로 가장 큰 보상을 얻을까?”

1-1. 기본 구성 요소

구성 요소설명예시
환경 Environment 에이전트가 상호작용하는 세계 체스판, 자율주행 시뮬레이터, 전력망 시뮬레이터
상태 State s 환경의 현재 정보 말의 위치, 자동차의 속도·좌표
행동 Action a 에이전트가 선택 가능한 움직임 말을 한 칸 이동, 가속 페달 10% 밟기
보상 Reward r 행동 직후 환경이 주는 수치 승/패 +1/-1, 에너지 비용 절감량
정책 Policy π(a | s) 상태→행동 매핑 함수 “중앙 통제를 높여라”, “충전 시점을 저녁으로 미뤄라”
가치함수 Value V(s),Q(s,a)V(s), Q(s,a) 미래 누적 보상의 기댓값 현재 전략이 장기적으로 얼마나 좋은지
 

MDP(Markov Decision Process)라는 확률 모델 위에서, 벨만 방정식으로 ‘좋은’ 가치함수를 정의·추정하는 것이 수학적 뼈대입니다.


2. 지도학습·비지도학습과의 차이

관점지도학습(Supervised)비지도학습(Unsupervised)강화학습(Reinforcement)
데이터 입력-정답 쌍(Labeled) 고정 입력만(Unlabeled) 고정 에이전트가 직접 만들어 감
목표 정답 예측(분류·회귀) 구조 발견(군집, 차원축소) 행동 전략 최적화
학습 신호 오류(예측-정답 차이) 통계적 패턴 보상·벌점
평가 기준 정확도, RMSE 등 실루엣 점수 등 누적 보상, 평균 수익
난점 레이블 비용 의미 해석 탐험-활용 균형, 희소 보상, 안정성
 

요약하면 지도·비지도학습은 “주어진 정적 데이터”에서 패턴·함수를 찾고, 강화학습은 “인터랙션을 통해” 데이터를 스스로 모으며 보상 신호로 학습합니다.


3. 적용 분야와 한계

3-1. 대표 적용 분야

  1. 게임 · 시뮬레이션
    • AlphaGo/AlphaZero : 바둑·장기·체스 초월 수준
    • MuZero : 모델 기반 RL로 Atari·보드게임 통합
  2. 로봇 제어
    • 집게 로봇 픽-앤-플레이스, 다관절 보행, 드론 자율 비행
  3. 자율주행 · 스마트 모빌리티
    • 차선 유지, 충전·대기 전략 최적화, 교통 신호 제어
  4. 자연어 처리 RLHF
    • ChatGPT 등이 채택한 “보상 모델 + RL( PPO )” 흐름
  5. 에너지·스마트그리드
    • V2G/V2B 충·방전 스케줄링, 분산 에너지 자원 제어
  6. 금융·추천 시스템
    • 포트폴리오 리밸런싱, 사용자 맞춤형 컨텐츠 노출 순서

3-2. 현실적 한계

과제상세 설명최근 대응 흐름
샘플 비효율성 수백만 에피소드 필요 ▶ 현실 로봇·전력망에 부담 모델 기반 RL, Offline RL, 경험 증강
보상 설계 잘못 설계하면 ‘편법’ 행동 유발 인센티브 설계 원칙, IRL(Inverse RL)
안정성·안전성 큰 탐험 행동 → 장비·시설 위험 Safe RL, Constrained RL
일반화 환경 조금만 변해도 성능 급락 Domain Randomization, Meta-RL
계산 자원 대규모 GPU·TPU 요구 → 비용↑·탄소↑ 효율적 네트워크, 학습 가속 라이브러리
해석 가능성 블랙박스 정책 이해 난해 가치·정책 시각화, 정책 압축·해석 연구
 

TIP : 실제 프로젝트에선 “학습 전에 시뮬레이터 확보” 와 “보상 지표를 가능한 간단하고 명확하게” 정의하는 것이 성공률을 높입니다.


4. 마무리 & 다음 글 예고

이번 글에서는 강화학습의 큰 그림 을 그려 보았습니다.
다음 편에서는 수학적 기반인 MDP와 벨만 방정식 을 깊이 있게 다루고, 간단한 파이썬 예제로 ‘상태·행동·보상’을 직접 선언해 보겠습니다. 기대해 주세요!


참고 키워드(추가 학습용)

Markov Decision Process · Value Function · Policy Gradient · Exploration-Exploitation Dilemma · Model-Free vs Model-Based

반응형