일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | |
7 | 8 | 9 | 10 | 11 | 12 | 13 |
14 | 15 | 16 | 17 | 18 | 19 | 20 |
21 | 22 | 23 | 24 | 25 | 26 | 27 |
28 | 29 | 30 |
- 사이드프로젝트
- Instagrame clone
- App
- 강화학습 기초
- kaggle
- Reinforcement Learning
- ReactNative
- 카트폴
- 전국국밥
- 리액트네이티브
- 강화학습
- pandas
- GYM
- 앱개발
- Ros
- expo
- TeachagleMachine
- 조코딩
- 머신러닝
- 딥러닝
- 클론코딩
- python
- selenium
- FirebaseV9
- redux
- coding
- JavaScript
- React
- 데이터분석
- clone coding
- Today
- Total
목록전체 글 (103)
qcoding
7. 함수 근사 (Function Approximation) 무한/거대한 상태 공간에서는 테이블($V(s)$ 또는 $Q(s,a)$)에 값을 저장할 수 없습니다. 대신 가치 함수를 어떤 파라미터 벡터로 근사해야 합니다.7-1. 왜 함수 근사가 필요한가? 차원의 저주 – 상태 수가 지수적으로 폭발. 일부 상태는 평생 한 번도 방문하지 않을 수 있음 → 테이블 학습 불가. 근사는 일반화와 압축을 동시에 제공.7-2. 선형 vs 비선형 근사종류모델장점단점 선형 $$\hat Q(s,a;\mathbf{w})=\mathbf{w}_a^\top \phi(s)$$ 빠른 학습, 이론적 수렴 보장, 구현 단순 표현력 제한 (복잡 패턴 어려움) 비선형(NN, RBF, 결정트리 등) $$\hat Q=f_..
6. 시간차 학습 (Temporal-Difference, TD) “경험은 한 발 먼저, 오류는 한 발 뒤에.” 시간차(TD) 학습은 에피소드가 끝나기를 기다리지 않고, 한 스텝 지연된 오차만으로 가치를 업데이트합니다. Monte Carlo의 “무편향·고분산”과 DP의 “모델 필요·저분산” 사이에서 균형점을 찾은 방법이라 볼 수 있습니다.6-1. TD(0) 업데이트 상태 가치 버전 $$ V(S_t) \;\leftarrow\; V(S_t) + \alpha\bigl[R_{t+1} + \gamma V(S_{t+1}) - V(S_t)\bigr] $$ $\alpha$ : 학습률 (step-size) $R_{t+1} + \gamma V(S_{t+1})$ : 부트스트랩 목표(1-스텝 리턴) 대..
5. 몬테카를로 방법 (Monte Carlo Methods) “모형이 없을 때, 우리는 실제 경험을 모아 평균을 낸다.” 몬테카를로(MC) 방법은 환경 모델이 없더라도 에피소드를 완주하고 얻은 표본 Return의 평균으로 가치함수를 추정합니다.5-1. 에피소드 기반 학습특징설명샘플 단위전체 에피소드 $(S_0,A_0,R_1,\dots,S_T)$업데이트 시점에피소드가 끝난 뒤 한꺼번에편향없음 (표본 평균이 불편추정량)분산높음 → 많은 에피소드 필요 $$G_t \;=\; R_{t+1} + \gamma R_{t+2} + \dots + \gamma^{T-t-1} R_T$$MC 추정치 $\hat V(s)$ 는 $G_t$ (여러 에피소드) 평균으로 수렴합니다.5-2. First-visit vs Every..
4. 정적 계획법 (Dynamic Programming) “모든 것이 알려진(모형이 완전한) MDP라면, 최적 정책은 순환 방정식을 반복적으로 푸는 것만으로 얻을 수 있다.” 이 반복적 과정이 바로 정적 계획법(DP)이며, 두 핵심 루틴—정책 평가와 정책 개선—이 맞물려 돌아갑니다.4-1. 사전 지식 요약 필수 요소간단 메모앞서 다룬 섹션 MDP 구조$\langle\mathcal{S},\mathcal{A},P,R,\gamma\rangle$2-1 벨만 기대 방정식$V_\pi, Q_\pi$ 재귀식3-3 수축 사상 & 고정점$\gamma수학 배경 4-2. 정책 평가 (Policy Evaluation)주어진 정책 $\pi$에 대해 정확한 가치 $V_\pi$를 찾는 단계..
3. 정책과 가치함수 (Policy & Value Function) 정책은 “무엇을 할 것인가”를, 가치함수는 “얼마나 좋은가”를 수치로 표현합니다. 둘은 마치 나침반과 지도처럼 상호 보완적이며, 벨만 방정식으로 단단히 엮여 있습니다.3-1. 정책(Policy) 개념 종류기호정의특징 결정론적 정책 $\mu : \mathcal{S}\!\to\!\mathcal{A}$ 상태 $s$가 주어지면 항상 하나의 행동 $a=\mu(s)$ 선택 간결·추론 쉬움탐험 부족 경우 많음 확률적 정책 $\pi(a\mid s)$ 상태 $s$에서 행동 $a$를 선택할 확률 탐험·불확실성 표현 용이표현·학습 자유도↑ ..
2. 마르코프 결정 과정(MDP) 강화학습의 모든 수학적 토대는 MDP로부터 시작됩니다. MDP를 이해하면 가치함수·정책·벨만 방정식·탐험-활용 전략 등 이후의 거의 모든 개념이 자연스럽게 연결됩니다.2-1. MDP 공식 정의MDP는 다섯 개 요소로 이루어진 튜플입니다. $$\langle\;\mathcal{S},\;\mathcal{A},\;P,\;R,\;\gamma\;\rangle$$ 기호이름설명 $\mathcal{S}$ 상태 집합 환경이 가질 수 있는 모든 상태 $s$ $\mathcal{A}$ 행동 집합 각 상태에서 선택할 수 있는 행동 $a$ $P(s',r\mid s,a)$ ..
1. 강화학습 개요“강화(Reinforcement)”라는 단어처럼, 강화학습(Reinforcement Learning, RL) 은 행동(액션) 을 취한 뒤 보상(Reward) 을 받고, 그 보상 신호를 토대로 다음 행동 전략(정책, Policy) 을 조금씩 개선해 가는 학습 패러다임입니다. 인간·동물이 시행착오를 통해 배우는 과정을 수학적으로 모델링한 것이 특징이죠.핵심 질문“어떤 행동을 하면 장기적으로 가장 큰 보상을 얻을까?”1-1. 기본 구성 요소구성 요소설명예시환경 Environment에이전트가 상호작용하는 세계체스판, 자율주행 시뮬레이터, 전력망 시뮬레이터상태 State s환경의 현재 정보말의 위치, 자동차의 속도·좌표행동 Action a에이전트가 선택 가능한 움직임말을 한 칸 이동, 가속 페달..

* WINDOW에서 매번 아나콘다를 통해서 텐서플로를 설치하지만, GPU가 잘 잡히지 않아서 고생했을 때 해당 방법으로 문제를 해결하여 정리함. ** 설치 순서 1) ANACONDA 설치 -> ANACONDA를 설치하면 PYTHON과 많은 패키지 들이 한번에 설치 되는데 아래와 같이 Python 3.11 로 설치가 된다. 그러나 현재 tensorflow에서 윈도우로 아래와 같이 2.10이 GPU를 지원하는 마지막 릴리스로 2.10을 설치하기 위해서 PYHTON 3.11 보다 낮은 버전이 필요하다. --> 그래서 ANACONDA 설치 후 가상환경을 생성하고 그 환경에 PYTHON 3.9 버전을 설치하고 텐서플로를 실행하는 순서로 진행된다. 2) ANACONDA 설치 후 가상환경 생성 https://www...