'Reinforcement Learning' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/08 »
일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

Tags more

Archives

Today

Total

관리 메뉴

목록Reinforcement Learning (10)

qcoding

[강화학습-9] 정책 기반 방법 (Policy Gradient) – REINFORCE

9. 정책 기반 방법 (Policy Gradient) 가치기반(Q) 방법이 “가치를 올리며 탐욕적 행동”에 의존한다면, 정책 기반(Policy Gradient)은 “정책 그 자체”를 매개변수화해 곧바로 최적화를 시도합니다.9-1. REINFORCE 알고리즘Montezuma’s Revenge처럼 희소 · 고차원 보상 환경에서, 미끄러운 Q 값 추정 대신 정책 확률 $\pi_\theta(a\mid s)$ 를 직접 조정하는 접근입니다. $$\nabla_\theta J(\theta)= \mathbb{E}_{\pi_\theta}\!\bigl[ G_t \,\nabla_\theta \log\pi_\theta(A_t\mid S_t) \bigr] \quad\tex..

머신러닝 딥러닝 2025. 5. 28. 17:25

[강화학습-8] 딥 강화학습(Deep RL) 기초 – DQN

8. 딥 강화학습(Deep RL) 기초 – DQN 2015년 DeepMind의 DQN(Deep Q-Network)은 픽셀 입력만으로 Atari 2600 게임들을 사람 수준으로 플레이하며 “딥러닝 + 강화학습” 시대를 열었습니다. 핵심은 표준 Q-Learning에 두 가지 안정화 기법을 더한 것입니다.8-1. DQN 아키텍처블록설명입력state $s$ (원본 픽셀·연속 벡터 모두 가능)피처 추출 CNN / MLP2~3 Conv + ReLU + FC (Atari)또는 2~3 FC (CartPole 등 저차원)출력층$\hat Q(s,a;\theta)$ – 각 행동에 대한 Q-값 $$L(\theta)=\mathbb{E}_{(s,a,r,s')\sim\mathcal{D}} \Bigl[\bigl(..

머신러닝 딥러닝 2025. 5. 28. 17:23

[강화학습-7] 함수 근사 (Function Approximation)

7. 함수 근사 (Function Approximation) 무한/거대한 상태 공간에서는 테이블($V(s)$ 또는 $Q(s,a)$)에 값을 저장할 수 없습니다. 대신 가치 함수를 어떤 파라미터 벡터로 근사해야 합니다.7-1. 왜 함수 근사가 필요한가? 차원의 저주 – 상태 수가 지수적으로 폭발. 일부 상태는 평생 한 번도 방문하지 않을 수 있음 → 테이블 학습 불가. 근사는 일반화와 압축을 동시에 제공.7-2. 선형 vs 비선형 근사종류모델장점단점 선형 $$\hat Q(s,a;\mathbf{w})=\mathbf{w}_a^\top \phi(s)$$ 빠른 학습, 이론적 수렴 보장, 구현 단순 표현력 제한 (복잡 패턴 어려움) 비선형(NN, RBF, 결정트리 등) $$\hat Q=f_..

머신러닝 딥러닝 2025. 5. 28. 17:22

[강화학습-6] 시간차 학습 (Temporal-Difference, TD)

6. 시간차 학습 (Temporal-Difference, TD) “경험은 한 발 먼저, 오류는 한 발 뒤에.” 시간차(TD) 학습은 에피소드가 끝나기를 기다리지 않고, 한 스텝 지연된 오차만으로 가치를 업데이트합니다. Monte Carlo의 “무편향·고분산”과 DP의 “모델 필요·저분산” 사이에서 균형점을 찾은 방법이라 볼 수 있습니다.6-1. TD(0) 업데이트 상태 가치 버전 $$ V(S_t) \;\leftarrow\; V(S_t) + \alpha\bigl[R_{t+1} + \gamma V(S_{t+1}) - V(S_t)\bigr] $$ $\alpha$ : 학습률 (step-size) $R_{t+1} + \gamma V(S_{t+1})$ : 부트스트랩 목표(1-스텝 리턴) 대..

머신러닝 딥러닝 2025. 5. 28. 17:20

[강화학습-5] 몬테카를로 방법 (Monte Carlo Methods)

5. 몬테카를로 방법 (Monte Carlo Methods) “모형이 없을 때, 우리는 실제 경험을 모아 평균을 낸다.” 몬테카를로(MC) 방법은 환경 모델이 없더라도 에피소드를 완주하고 얻은 표본 Return의 평균으로 가치함수를 추정합니다.5-1. 에피소드 기반 학습특징설명샘플 단위전체 에피소드 $(S_0,A_0,R_1,\dots,S_T)$업데이트 시점에피소드가 끝난 뒤 한꺼번에편향없음 (표본 평균이 불편추정량)분산높음 → 많은 에피소드 필요 $$G_t \;=\; R_{t+1} + \gamma R_{t+2} + \dots + \gamma^{T-t-1} R_T$$MC 추정치 $\hat V(s)$ 는 $G_t$ (여러 에피소드) 평균으로 수렴합니다.5-2. First-visit vs Every..

머신러닝 딥러닝 2025. 5. 28. 17:18

[강화학습-4]정적 계획법 (Dynamic Programming)

4. 정적 계획법 (Dynamic Programming) “모든 것이 알려진(모형이 완전한) MDP라면, 최적 정책은 순환 방정식을 반복적으로 푸는 것만으로 얻을 수 있다.” 이 반복적 과정이 바로 정적 계획법(DP)이며, 두 핵심 루틴—정책 평가와 정책 개선—이 맞물려 돌아갑니다.4-1. 사전 지식 요약 필수 요소간단 메모앞서 다룬 섹션 MDP 구조$\langle\mathcal{S},\mathcal{A},P,R,\gamma\rangle$2-1 벨만 기대 방정식$V_\pi, Q_\pi$ 재귀식3-3 수축 사상 & 고정점$\gamma수학 배경 4-2. 정책 평가 (Policy Evaluation)주어진 정책 $\pi$에 대해 정확한 가치 $V_\pi$를 찾는 단계..

카테고리 없음 2025. 5. 28. 17:17

[강화학습-3] 정책과 가치함수

3. 정책과 가치함수 (Policy & Value Function) 정책은 “무엇을 할 것인가”를, 가치함수는 “얼마나 좋은가”를 수치로 표현합니다. 둘은 마치 나침반과 지도처럼 상호 보완적이며, 벨만 방정식으로 단단히 엮여 있습니다.3-1. 정책(Policy) 개념 종류기호정의특징 결정론적 정책 $\mu : \mathcal{S}\!\to\!\mathcal{A}$ 상태 $s$가 주어지면 항상 하나의 행동 $a=\mu(s)$ 선택 간결·추론 쉬움탐험 부족 경우 많음 확률적 정책 $\pi(a\mid s)$ 상태 $s$에서 행동 $a$를 선택할 확률 탐험·불확실성 표현 용이표현·학습 자유도↑ ..

머신러닝 딥러닝 2025. 5. 28. 17:15

[강화학습] DDPG (Deep Deterministic Policy Gradient)실습_ContinuosMountainCar(2/2)

** 이번 실습은 앞선 글의 DDPG 이론을 Mountain Car 문제에 적용하는 실습이다. MountainCar 문제 중 Continuos Action Space를 갖는 문제에 대해 적용해 볼 것이다. 이번실습에서 진행하는 코드는 아래의 블로그를 참조하여 만들었으며, Mountain Car에 대한 문제는 이전 블로그를 참고하면 자세히 알 수 있다. https://pasus.tistory.com/138 Tensorflow2로 만든 DDPG 코드: Pendulum-v0 OpenAI Gym에서 제공하는 Pendulum-v0 환경을 대상으로 DDPG 알고리즘을 Tensorflow2 코드로 구현하였다. 학습결과는 다음과 같다. DDPG는 오프-폴리시 방법으로서 온-폴리시인 A2C에 비해서 데이터 효율이 pas..

머신러닝 딥러닝 2023. 3. 15. 21:30

Prev 1 2 Next

목록Reinforcement Learning (10)

qcoding

티스토리툴바