일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 | 31 |
- 사이드프로젝트
- TeachagleMachine
- GYM
- React
- Instagrame clone
- 전국국밥
- coding
- 딥러닝
- kaggle
- 조코딩
- 강화학습 기초
- Reinforcement Learning
- 강화학습
- FirebaseV9
- python
- 카트폴
- ReactNative
- App
- 앱개발
- 머신러닝
- 데이터분석
- expo
- selenium
- pandas
- clone coding
- JavaScript
- redux
- 클론코딩
- Ros
- 리액트네이티브
- Today
- Total
목록강화학습 (19)
qcoding
7. 함수 근사 (Function Approximation) 무한/거대한 상태 공간에서는 테이블($V(s)$ 또는 $Q(s,a)$)에 값을 저장할 수 없습니다. 대신 가치 함수를 어떤 파라미터 벡터로 근사해야 합니다.7-1. 왜 함수 근사가 필요한가? 차원의 저주 – 상태 수가 지수적으로 폭발. 일부 상태는 평생 한 번도 방문하지 않을 수 있음 → 테이블 학습 불가. 근사는 일반화와 압축을 동시에 제공.7-2. 선형 vs 비선형 근사종류모델장점단점 선형 $$\hat Q(s,a;\mathbf{w})=\mathbf{w}_a^\top \phi(s)$$ 빠른 학습, 이론적 수렴 보장, 구현 단순 표현력 제한 (복잡 패턴 어려움) 비선형(NN, RBF, 결정트리 등) $$\hat Q=f_..
6. 시간차 학습 (Temporal-Difference, TD) “경험은 한 발 먼저, 오류는 한 발 뒤에.” 시간차(TD) 학습은 에피소드가 끝나기를 기다리지 않고, 한 스텝 지연된 오차만으로 가치를 업데이트합니다. Monte Carlo의 “무편향·고분산”과 DP의 “모델 필요·저분산” 사이에서 균형점을 찾은 방법이라 볼 수 있습니다.6-1. TD(0) 업데이트 상태 가치 버전 $$ V(S_t) \;\leftarrow\; V(S_t) + \alpha\bigl[R_{t+1} + \gamma V(S_{t+1}) - V(S_t)\bigr] $$ $\alpha$ : 학습률 (step-size) $R_{t+1} + \gamma V(S_{t+1})$ : 부트스트랩 목표(1-스텝 리턴) 대..
5. 몬테카를로 방법 (Monte Carlo Methods) “모형이 없을 때, 우리는 실제 경험을 모아 평균을 낸다.” 몬테카를로(MC) 방법은 환경 모델이 없더라도 에피소드를 완주하고 얻은 표본 Return의 평균으로 가치함수를 추정합니다.5-1. 에피소드 기반 학습특징설명샘플 단위전체 에피소드 $(S_0,A_0,R_1,\dots,S_T)$업데이트 시점에피소드가 끝난 뒤 한꺼번에편향없음 (표본 평균이 불편추정량)분산높음 → 많은 에피소드 필요 $$G_t \;=\; R_{t+1} + \gamma R_{t+2} + \dots + \gamma^{T-t-1} R_T$$MC 추정치 $\hat V(s)$ 는 $G_t$ (여러 에피소드) 평균으로 수렴합니다.5-2. First-visit vs Every..
4. 정적 계획법 (Dynamic Programming) “모든 것이 알려진(모형이 완전한) MDP라면, 최적 정책은 순환 방정식을 반복적으로 푸는 것만으로 얻을 수 있다.” 이 반복적 과정이 바로 정적 계획법(DP)이며, 두 핵심 루틴—정책 평가와 정책 개선—이 맞물려 돌아갑니다.4-1. 사전 지식 요약 필수 요소간단 메모앞서 다룬 섹션 MDP 구조$\langle\mathcal{S},\mathcal{A},P,R,\gamma\rangle$2-1 벨만 기대 방정식$V_\pi, Q_\pi$ 재귀식3-3 수축 사상 & 고정점$\gamma수학 배경 4-2. 정책 평가 (Policy Evaluation)주어진 정책 $\pi$에 대해 정확한 가치 $V_\pi$를 찾는 단계..
3. 정책과 가치함수 (Policy & Value Function) 정책은 “무엇을 할 것인가”를, 가치함수는 “얼마나 좋은가”를 수치로 표현합니다. 둘은 마치 나침반과 지도처럼 상호 보완적이며, 벨만 방정식으로 단단히 엮여 있습니다.3-1. 정책(Policy) 개념 종류기호정의특징 결정론적 정책 $\mu : \mathcal{S}\!\to\!\mathcal{A}$ 상태 $s$가 주어지면 항상 하나의 행동 $a=\mu(s)$ 선택 간결·추론 쉬움탐험 부족 경우 많음 확률적 정책 $\pi(a\mid s)$ 상태 $s$에서 행동 $a$를 선택할 확률 탐험·불확실성 표현 용이표현·학습 자유도↑ ..

* 이번 실습은 A3C (Asynchronous Advantage Actor-Critic)에 대한 실습내용이다. 실습의 적용은 Cartpole과 Mountain Car에 적용하였으며, 결론적으로 Cartpole의 환경에서만 문제를 해결하였다. 현재까지 실습을 진행한 알고리즘을 정리하면 - > value_based (dqn) -> Policy_based (Reinforce / TD1step - A2C / TD1step - Continuos A2C ) 이며, Mountain Car 환경이 성공한 것은 off-policy value_based인 dqn 알고리즘이다. Mountain car와 같이 즉각적인 보상이 아닌 goal에 도착했을 때 큰 보상을 얻는 환경의 경우 on-policy알고리즘으로 action을..

* 이번 실습은 Continuos A2C 실습으로 아래의 Mountain Car Continuos 환경에 연속적 A2C알고리즘을 적용해보는 실습을 하였다. https://www.gymlibrary.dev/environments/classic_control/mountain_car_continuous/ Mountain Car Continuous - Gym Documentation Previous Cart Pole www.gymlibrary.dev 해당 실습의 코드는 아래의 책을 구매한 후 공부를 하며 진행하였으며, 편의를 위해 몇가지 부분을 추가하거나 수정하였다. https://wikibook.co.kr/reinforcement-learning/ 파이썬과 케라스로 배우는 강화학습: 내 손으로 직접 구현하는 ..

* 이번 실습에서는 Actor-Critic 알고리즘을 통해 Mountain Car 문제를 해결해 보는 시간으로 Reinforce 알고리즘을 통해 Mountain Car 문제가 해결되지 않았으므로 이방법을 통해서 해결이 가능한 지 확인해 보는 Policy Based의 연장선이다. Actor-critc은 value / policy 학습을 둘 다 진행하는 것으로 인공신경망을 통해 가치함수와 정책함수를 둘다 근사하는 것이 특징이다. * 결론부터 말하면 Cartpole은 잘되지만, 역시나 Mountain Car은 잘되지 않았다. 이번실습은 아래와 같은 순서로 진행된다. 1. A2C 에 대한 간략한 이론 2. A2C의 알고리즘 구조 3. A2C CartPole / Mountain car 코드 및 리뷰 4. 평가결과..