'강화학습' 태그의 글 목록 (2 Page)

Notice

Recent Posts

Recent Comments

Link

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록강화학습 (19)

qcoding

[강화학습-7] 함수 근사 (Function Approximation)

7. 함수 근사 (Function Approximation) 무한/거대한 상태 공간에서는 테이블($V(s)$ 또는 $Q(s,a)$)에 값을 저장할 수 없습니다. 대신 가치 함수를 어떤 파라미터 벡터로 근사해야 합니다.7-1. 왜 함수 근사가 필요한가? 차원의 저주 – 상태 수가 지수적으로 폭발. 일부 상태는 평생 한 번도 방문하지 않을 수 있음 → 테이블 학습 불가. 근사는 일반화와 압축을 동시에 제공.7-2. 선형 vs 비선형 근사종류모델장점단점 선형 $$\hat Q(s,a;\mathbf{w})=\mathbf{w}_a^\top \phi(s)$$ 빠른 학습, 이론적 수렴 보장, 구현 단순 표현력 제한 (복잡 패턴 어려움) 비선형(NN, RBF, 결정트리 등) $$\hat Q=f_..

머신러닝 딥러닝 2025. 5. 28. 17:22

[강화학습-6] 시간차 학습 (Temporal-Difference, TD)

6. 시간차 학습 (Temporal-Difference, TD) “경험은 한 발 먼저, 오류는 한 발 뒤에.” 시간차(TD) 학습은 에피소드가 끝나기를 기다리지 않고, 한 스텝 지연된 오차만으로 가치를 업데이트합니다. Monte Carlo의 “무편향·고분산”과 DP의 “모델 필요·저분산” 사이에서 균형점을 찾은 방법이라 볼 수 있습니다.6-1. TD(0) 업데이트 상태 가치 버전 $$ V(S_t) \;\leftarrow\; V(S_t) + \alpha\bigl[R_{t+1} + \gamma V(S_{t+1}) - V(S_t)\bigr] $$ $\alpha$ : 학습률 (step-size) $R_{t+1} + \gamma V(S_{t+1})$ : 부트스트랩 목표(1-스텝 리턴) 대..

머신러닝 딥러닝 2025. 5. 28. 17:20

[강화학습-5] 몬테카를로 방법 (Monte Carlo Methods)

5. 몬테카를로 방법 (Monte Carlo Methods) “모형이 없을 때, 우리는 실제 경험을 모아 평균을 낸다.” 몬테카를로(MC) 방법은 환경 모델이 없더라도 에피소드를 완주하고 얻은 표본 Return의 평균으로 가치함수를 추정합니다.5-1. 에피소드 기반 학습특징설명샘플 단위전체 에피소드 $(S_0,A_0,R_1,\dots,S_T)$업데이트 시점에피소드가 끝난 뒤 한꺼번에편향없음 (표본 평균이 불편추정량)분산높음 → 많은 에피소드 필요 $$G_t \;=\; R_{t+1} + \gamma R_{t+2} + \dots + \gamma^{T-t-1} R_T$$MC 추정치 $\hat V(s)$ 는 $G_t$ (여러 에피소드) 평균으로 수렴합니다.5-2. First-visit vs Every..

머신러닝 딥러닝 2025. 5. 28. 17:18

[강화학습-4]정적 계획법 (Dynamic Programming)

4. 정적 계획법 (Dynamic Programming) “모든 것이 알려진(모형이 완전한) MDP라면, 최적 정책은 순환 방정식을 반복적으로 푸는 것만으로 얻을 수 있다.” 이 반복적 과정이 바로 정적 계획법(DP)이며, 두 핵심 루틴—정책 평가와 정책 개선—이 맞물려 돌아갑니다.4-1. 사전 지식 요약 필수 요소간단 메모앞서 다룬 섹션 MDP 구조$\langle\mathcal{S},\mathcal{A},P,R,\gamma\rangle$2-1 벨만 기대 방정식$V_\pi, Q_\pi$ 재귀식3-3 수축 사상 & 고정점$\gamma수학 배경 4-2. 정책 평가 (Policy Evaluation)주어진 정책 $\pi$에 대해 정확한 가치 $V_\pi$를 찾는 단계..

카테고리 없음 2025. 5. 28. 17:17

[강화학습-3] 정책과 가치함수

3. 정책과 가치함수 (Policy & Value Function) 정책은 “무엇을 할 것인가”를, 가치함수는 “얼마나 좋은가”를 수치로 표현합니다. 둘은 마치 나침반과 지도처럼 상호 보완적이며, 벨만 방정식으로 단단히 엮여 있습니다.3-1. 정책(Policy) 개념 종류기호정의특징 결정론적 정책 $\mu : \mathcal{S}\!\to\!\mathcal{A}$ 상태 $s$가 주어지면 항상 하나의 행동 $a=\mu(s)$ 선택 간결·추론 쉬움탐험 부족 경우 많음 확률적 정책 $\pi(a\mid s)$ 상태 $s$에서 행동 $a$를 선택할 확률 탐험·불확실성 표현 용이표현·학습 자유도↑ ..

머신러닝 딥러닝 2025. 5. 28. 17:15

[강화학습]A3C_Discrete환경_Cartpole_Mountain_car

* 이번 실습은 A3C (Asynchronous Advantage Actor-Critic)에 대한 실습내용이다. 실습의 적용은 Cartpole과 Mountain Car에 적용하였으며, 결론적으로 Cartpole의 환경에서만 문제를 해결하였다. 현재까지 실습을 진행한 알고리즘을 정리하면 - > value_based (dqn) -> Policy_based (Reinforce / TD1step - A2C / TD1step - Continuos A2C ) 이며, Mountain Car 환경이 성공한 것은 off-policy value_based인 dqn 알고리즘이다. Mountain car와 같이 즉각적인 보상이 아닌 goal에 도착했을 때 큰 보상을 얻는 환경의 경우 on-policy알고리즘으로 action을..

머신러닝 딥러닝 2023. 2. 24. 11:32

[강화학습]Continuos A2C(연속적 A2C)_mountain Car

* 이번 실습은 Continuos A2C 실습으로 아래의 Mountain Car Continuos 환경에 연속적 A2C알고리즘을 적용해보는 실습을 하였다. https://www.gymlibrary.dev/environments/classic_control/mountain_car_continuous/ Mountain Car Continuous - Gym Documentation Previous Cart Pole www.gymlibrary.dev 해당 실습의 코드는 아래의 책을 구매한 후 공부를 하며 진행하였으며, 편의를 위해 몇가지 부분을 추가하거나 수정하였다. https://wikibook.co.kr/reinforcement-learning/ 파이썬과 케라스로 배우는 강화학습: 내 손으로 직접 구현하는 ..

머신러닝 딥러닝 2023. 2. 15. 22:08

[강화학습]A2C (Actor-Critic)CartPole_Mountain Car 문제

* 이번 실습에서는 Actor-Critic 알고리즘을 통해 Mountain Car 문제를 해결해 보는 시간으로 Reinforce 알고리즘을 통해 Mountain Car 문제가 해결되지 않았으므로 이방법을 통해서 해결이 가능한 지 확인해 보는 Policy Based의 연장선이다. Actor-critc은 value / policy 학습을 둘 다 진행하는 것으로 인공신경망을 통해 가치함수와 정책함수를 둘다 근사하는 것이 특징이다. * 결론부터 말하면 Cartpole은 잘되지만, 역시나 Mountain Car은 잘되지 않았다. 이번실습은 아래와 같은 순서로 진행된다. 1. A2C 에 대한 간략한 이론 2. A2C의 알고리즘 구조 3. A2C CartPole / Mountain car 코드 및 리뷰 4. 평가결과..

머신러닝 딥러닝 2023. 2. 11. 16:49

Prev 1 2 3 Next

목록강화학습 (19)

qcoding

티스토리툴바