'2025/05 글 목록 (2 Page)

Notice

Recent Posts

Recent Comments

Link

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록2025/05 (15)

qcoding

[강화학습-7] 함수 근사 (Function Approximation)

7. 함수 근사 (Function Approximation) 무한/거대한 상태 공간에서는 테이블($V(s)$ 또는 $Q(s,a)$)에 값을 저장할 수 없습니다. 대신 가치 함수를 어떤 파라미터 벡터로 근사해야 합니다.7-1. 왜 함수 근사가 필요한가? 차원의 저주 – 상태 수가 지수적으로 폭발. 일부 상태는 평생 한 번도 방문하지 않을 수 있음 → 테이블 학습 불가. 근사는 일반화와 압축을 동시에 제공.7-2. 선형 vs 비선형 근사종류모델장점단점 선형 $$\hat Q(s,a;\mathbf{w})=\mathbf{w}_a^\top \phi(s)$$ 빠른 학습, 이론적 수렴 보장, 구현 단순 표현력 제한 (복잡 패턴 어려움) 비선형(NN, RBF, 결정트리 등) $$\hat Q=f_..

머신러닝 딥러닝 2025. 5. 28. 17:22

[강화학습-6] 시간차 학습 (Temporal-Difference, TD)

6. 시간차 학습 (Temporal-Difference, TD) “경험은 한 발 먼저, 오류는 한 발 뒤에.” 시간차(TD) 학습은 에피소드가 끝나기를 기다리지 않고, 한 스텝 지연된 오차만으로 가치를 업데이트합니다. Monte Carlo의 “무편향·고분산”과 DP의 “모델 필요·저분산” 사이에서 균형점을 찾은 방법이라 볼 수 있습니다.6-1. TD(0) 업데이트 상태 가치 버전 $$ V(S_t) \;\leftarrow\; V(S_t) + \alpha\bigl[R_{t+1} + \gamma V(S_{t+1}) - V(S_t)\bigr] $$ $\alpha$ : 학습률 (step-size) $R_{t+1} + \gamma V(S_{t+1})$ : 부트스트랩 목표(1-스텝 리턴) 대..

머신러닝 딥러닝 2025. 5. 28. 17:20

[강화학습-5] 몬테카를로 방법 (Monte Carlo Methods)

5. 몬테카를로 방법 (Monte Carlo Methods) “모형이 없을 때, 우리는 실제 경험을 모아 평균을 낸다.” 몬테카를로(MC) 방법은 환경 모델이 없더라도 에피소드를 완주하고 얻은 표본 Return의 평균으로 가치함수를 추정합니다.5-1. 에피소드 기반 학습특징설명샘플 단위전체 에피소드 $(S_0,A_0,R_1,\dots,S_T)$업데이트 시점에피소드가 끝난 뒤 한꺼번에편향없음 (표본 평균이 불편추정량)분산높음 → 많은 에피소드 필요 $$G_t \;=\; R_{t+1} + \gamma R_{t+2} + \dots + \gamma^{T-t-1} R_T$$MC 추정치 $\hat V(s)$ 는 $G_t$ (여러 에피소드) 평균으로 수렴합니다.5-2. First-visit vs Every..

머신러닝 딥러닝 2025. 5. 28. 17:18

[강화학습-4]정적 계획법 (Dynamic Programming)

4. 정적 계획법 (Dynamic Programming) “모든 것이 알려진(모형이 완전한) MDP라면, 최적 정책은 순환 방정식을 반복적으로 푸는 것만으로 얻을 수 있다.” 이 반복적 과정이 바로 정적 계획법(DP)이며, 두 핵심 루틴—정책 평가와 정책 개선—이 맞물려 돌아갑니다.4-1. 사전 지식 요약 필수 요소간단 메모앞서 다룬 섹션 MDP 구조$\langle\mathcal{S},\mathcal{A},P,R,\gamma\rangle$2-1 벨만 기대 방정식$V_\pi, Q_\pi$ 재귀식3-3 수축 사상 & 고정점$\gamma수학 배경 4-2. 정책 평가 (Policy Evaluation)주어진 정책 $\pi$에 대해 정확한 가치 $V_\pi$를 찾는 단계..

카테고리 없음 2025. 5. 28. 17:17

[강화학습-3] 정책과 가치함수

3. 정책과 가치함수 (Policy & Value Function) 정책은 “무엇을 할 것인가”를, 가치함수는 “얼마나 좋은가”를 수치로 표현합니다. 둘은 마치 나침반과 지도처럼 상호 보완적이며, 벨만 방정식으로 단단히 엮여 있습니다.3-1. 정책(Policy) 개념 종류기호정의특징 결정론적 정책 $\mu : \mathcal{S}\!\to\!\mathcal{A}$ 상태 $s$가 주어지면 항상 하나의 행동 $a=\mu(s)$ 선택 간결·추론 쉬움탐험 부족 경우 많음 확률적 정책 $\pi(a\mid s)$ 상태 $s$에서 행동 $a$를 선택할 확률 탐험·불확실성 표현 용이표현·학습 자유도↑ ..

머신러닝 딥러닝 2025. 5. 28. 17:15

[강화학습-2] 마르코프 결정 과정(MDP)

2. 마르코프 결정 과정(MDP) 강화학습의 모든 수학적 토대는 MDP로부터 시작됩니다. MDP를 이해하면 가치함수·정책·벨만 방정식·탐험-활용 전략 등 이후의 거의 모든 개념이 자연스럽게 연결됩니다.2-1. MDP 공식 정의MDP는 다섯 개 요소로 이루어진 튜플입니다. $$\langle\;\mathcal{S},\;\mathcal{A},\;P,\;R,\;\gamma\;\rangle$$ 기호이름설명 $\mathcal{S}$ 상태 집합 환경이 가질 수 있는 모든 상태 $s$ $\mathcal{A}$ 행동 집합 각 상태에서 선택할 수 있는 행동 $a$ $P(s',r\mid s,a)$ ..

머신러닝 딥러닝 2025. 5. 28. 17:04

[강화학습-1] 강화학습이란?

1. 강화학습 개요“강화(Reinforcement)”라는 단어처럼, 강화학습(Reinforcement Learning, RL) 은 행동(액션) 을 취한 뒤 보상(Reward) 을 받고, 그 보상 신호를 토대로 다음 행동 전략(정책, Policy) 을 조금씩 개선해 가는 학습 패러다임입니다. 인간·동물이 시행착오를 통해 배우는 과정을 수학적으로 모델링한 것이 특징이죠.핵심 질문“어떤 행동을 하면 장기적으로 가장 큰 보상을 얻을까?”1-1. 기본 구성 요소구성 요소설명예시환경 Environment에이전트가 상호작용하는 세계체스판, 자율주행 시뮬레이터, 전력망 시뮬레이터상태 State s환경의 현재 정보말의 위치, 자동차의 속도·좌표행동 Action a에이전트가 선택 가능한 움직임말을 한 칸 이동, 가속 페달..

머신러닝 딥러닝 2025. 5. 28. 16:57

Prev 1 2 Next

목록2025/05 (15)

qcoding

티스토리툴바