머신러닝 딥러닝
[강화학습-1] 강화학습이란?
Qcoding
2025. 5. 28. 16:57
반응형
1. 강화학습 개요
“강화(Reinforcement)”라는 단어처럼, 강화학습(Reinforcement Learning, RL) 은 행동(액션) 을 취한 뒤 보상(Reward) 을 받고, 그 보상 신호를 토대로 다음 행동 전략(정책, Policy) 을 조금씩 개선해 가는 학습 패러다임입니다. 인간·동물이 시행착오를 통해 배우는 과정을 수학적으로 모델링한 것이 특징이죠.
핵심 질문
“어떤 행동을 하면 장기적으로 가장 큰 보상을 얻을까?”
1-1. 기본 구성 요소
구성 요소설명예시
환경 Environment | 에이전트가 상호작용하는 세계 | 체스판, 자율주행 시뮬레이터, 전력망 시뮬레이터 |
상태 State s | 환경의 현재 정보 | 말의 위치, 자동차의 속도·좌표 |
행동 Action a | 에이전트가 선택 가능한 움직임 | 말을 한 칸 이동, 가속 페달 10% 밟기 |
보상 Reward r | 행동 직후 환경이 주는 수치 | 승/패 +1/-1, 에너지 비용 절감량 |
정책 Policy π(a | s) | 상태→행동 매핑 함수 | “중앙 통제를 높여라”, “충전 시점을 저녁으로 미뤄라” |
가치함수 Value V(s),Q(s,a)V(s), Q(s,a) | 미래 누적 보상의 기댓값 | 현재 전략이 장기적으로 얼마나 좋은지 |
MDP(Markov Decision Process)라는 확률 모델 위에서, 벨만 방정식으로 ‘좋은’ 가치함수를 정의·추정하는 것이 수학적 뼈대입니다.
2. 지도학습·비지도학습과의 차이
관점지도학습(Supervised)비지도학습(Unsupervised)강화학습(Reinforcement)
데이터 | 입력-정답 쌍(Labeled) 고정 | 입력만(Unlabeled) 고정 | 에이전트가 직접 만들어 감 |
목표 | 정답 예측(분류·회귀) | 구조 발견(군집, 차원축소) | 행동 전략 최적화 |
학습 신호 | 오류(예측-정답 차이) | 통계적 패턴 | 보상·벌점 |
평가 기준 | 정확도, RMSE 등 | 실루엣 점수 등 | 누적 보상, 평균 수익 |
난점 | 레이블 비용 | 의미 해석 | 탐험-활용 균형, 희소 보상, 안정성 |
요약하면 지도·비지도학습은 “주어진 정적 데이터”에서 패턴·함수를 찾고, 강화학습은 “인터랙션을 통해” 데이터를 스스로 모으며 보상 신호로 학습합니다.
3. 적용 분야와 한계
3-1. 대표 적용 분야
- 게임 · 시뮬레이션
- AlphaGo/AlphaZero : 바둑·장기·체스 초월 수준
- MuZero : 모델 기반 RL로 Atari·보드게임 통합
- 로봇 제어
- 집게 로봇 픽-앤-플레이스, 다관절 보행, 드론 자율 비행
- 자율주행 · 스마트 모빌리티
- 차선 유지, 충전·대기 전략 최적화, 교통 신호 제어
- 자연어 처리 RLHF
- ChatGPT 등이 채택한 “보상 모델 + RL( PPO )” 흐름
- 에너지·스마트그리드
- V2G/V2B 충·방전 스케줄링, 분산 에너지 자원 제어
- 금융·추천 시스템
- 포트폴리오 리밸런싱, 사용자 맞춤형 컨텐츠 노출 순서
3-2. 현실적 한계
과제상세 설명최근 대응 흐름
샘플 비효율성 | 수백만 에피소드 필요 ▶ 현실 로봇·전력망에 부담 | 모델 기반 RL, Offline RL, 경험 증강 |
보상 설계 | 잘못 설계하면 ‘편법’ 행동 유발 | 인센티브 설계 원칙, IRL(Inverse RL) |
안정성·안전성 | 큰 탐험 행동 → 장비·시설 위험 | Safe RL, Constrained RL |
일반화 | 환경 조금만 변해도 성능 급락 | Domain Randomization, Meta-RL |
계산 자원 | 대규모 GPU·TPU 요구 → 비용↑·탄소↑ | 효율적 네트워크, 학습 가속 라이브러리 |
해석 가능성 | 블랙박스 정책 이해 난해 | 가치·정책 시각화, 정책 압축·해석 연구 |
TIP : 실제 프로젝트에선 “학습 전에 시뮬레이터 확보” 와 “보상 지표를 가능한 간단하고 명확하게” 정의하는 것이 성공률을 높입니다.
4. 마무리 & 다음 글 예고
이번 글에서는 강화학습의 큰 그림 을 그려 보았습니다.
다음 편에서는 수학적 기반인 MDP와 벨만 방정식 을 깊이 있게 다루고, 간단한 파이썬 예제로 ‘상태·행동·보상’을 직접 선언해 보겠습니다. 기대해 주세요!
참고 키워드(추가 학습용)
Markov Decision Process · Value Function · Policy Gradient · Exploration-Exploitation Dilemma · Model-Free vs Model-Based
반응형