일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | 6 | 7 |
8 | 9 | 10 | 11 | 12 | 13 | 14 |
15 | 16 | 17 | 18 | 19 | 20 | 21 |
22 | 23 | 24 | 25 | 26 | 27 | 28 |
29 | 30 |
- python
- pandas
- 머신러닝
- 앱개발
- TeachagleMachine
- 강화학습
- coding
- 데이터분석
- 클론코딩
- Ros
- 리액트네이티브
- 조코딩
- kaggle
- JavaScript
- 강화학습 기초
- 전국국밥
- Reinforcement Learning
- selenium
- 사이드프로젝트
- 딥러닝
- expo
- App
- GYM
- redux
- ReactNative
- React
- Instagrame clone
- FirebaseV9
- 카트폴
- clone coding
- Today
- Total
목록머신러닝 딥러닝 (29)
qcoding
7. 함수 근사 (Function Approximation) 무한/거대한 상태 공간에서는 테이블($V(s)$ 또는 $Q(s,a)$)에 값을 저장할 수 없습니다. 대신 가치 함수를 어떤 파라미터 벡터로 근사해야 합니다.7-1. 왜 함수 근사가 필요한가? 차원의 저주 – 상태 수가 지수적으로 폭발. 일부 상태는 평생 한 번도 방문하지 않을 수 있음 → 테이블 학습 불가. 근사는 일반화와 압축을 동시에 제공.7-2. 선형 vs 비선형 근사종류모델장점단점 선형 $$\hat Q(s,a;\mathbf{w})=\mathbf{w}_a^\top \phi(s)$$ 빠른 학습, 이론적 수렴 보장, 구현 단순 표현력 제한 (복잡 패턴 어려움) 비선형(NN, RBF, 결정트리 등) $$\hat Q=f_..
6. 시간차 학습 (Temporal-Difference, TD) “경험은 한 발 먼저, 오류는 한 발 뒤에.” 시간차(TD) 학습은 에피소드가 끝나기를 기다리지 않고, 한 스텝 지연된 오차만으로 가치를 업데이트합니다. Monte Carlo의 “무편향·고분산”과 DP의 “모델 필요·저분산” 사이에서 균형점을 찾은 방법이라 볼 수 있습니다.6-1. TD(0) 업데이트 상태 가치 버전 $$ V(S_t) \;\leftarrow\; V(S_t) + \alpha\bigl[R_{t+1} + \gamma V(S_{t+1}) - V(S_t)\bigr] $$ $\alpha$ : 학습률 (step-size) $R_{t+1} + \gamma V(S_{t+1})$ : 부트스트랩 목표(1-스텝 리턴) 대..
5. 몬테카를로 방법 (Monte Carlo Methods) “모형이 없을 때, 우리는 실제 경험을 모아 평균을 낸다.” 몬테카를로(MC) 방법은 환경 모델이 없더라도 에피소드를 완주하고 얻은 표본 Return의 평균으로 가치함수를 추정합니다.5-1. 에피소드 기반 학습특징설명샘플 단위전체 에피소드 $(S_0,A_0,R_1,\dots,S_T)$업데이트 시점에피소드가 끝난 뒤 한꺼번에편향없음 (표본 평균이 불편추정량)분산높음 → 많은 에피소드 필요 $$G_t \;=\; R_{t+1} + \gamma R_{t+2} + \dots + \gamma^{T-t-1} R_T$$MC 추정치 $\hat V(s)$ 는 $G_t$ (여러 에피소드) 평균으로 수렴합니다.5-2. First-visit vs Every..
3. 정책과 가치함수 (Policy & Value Function) 정책은 “무엇을 할 것인가”를, 가치함수는 “얼마나 좋은가”를 수치로 표현합니다. 둘은 마치 나침반과 지도처럼 상호 보완적이며, 벨만 방정식으로 단단히 엮여 있습니다.3-1. 정책(Policy) 개념 종류기호정의특징 결정론적 정책 $\mu : \mathcal{S}\!\to\!\mathcal{A}$ 상태 $s$가 주어지면 항상 하나의 행동 $a=\mu(s)$ 선택 간결·추론 쉬움탐험 부족 경우 많음 확률적 정책 $\pi(a\mid s)$ 상태 $s$에서 행동 $a$를 선택할 확률 탐험·불확실성 표현 용이표현·학습 자유도↑ ..
2. 마르코프 결정 과정(MDP) 강화학습의 모든 수학적 토대는 MDP로부터 시작됩니다. MDP를 이해하면 가치함수·정책·벨만 방정식·탐험-활용 전략 등 이후의 거의 모든 개념이 자연스럽게 연결됩니다.2-1. MDP 공식 정의MDP는 다섯 개 요소로 이루어진 튜플입니다. $$\langle\;\mathcal{S},\;\mathcal{A},\;P,\;R,\;\gamma\;\rangle$$ 기호이름설명 $\mathcal{S}$ 상태 집합 환경이 가질 수 있는 모든 상태 $s$ $\mathcal{A}$ 행동 집합 각 상태에서 선택할 수 있는 행동 $a$ $P(s',r\mid s,a)$ ..
1. 강화학습 개요“강화(Reinforcement)”라는 단어처럼, 강화학습(Reinforcement Learning, RL) 은 행동(액션) 을 취한 뒤 보상(Reward) 을 받고, 그 보상 신호를 토대로 다음 행동 전략(정책, Policy) 을 조금씩 개선해 가는 학습 패러다임입니다. 인간·동물이 시행착오를 통해 배우는 과정을 수학적으로 모델링한 것이 특징이죠.핵심 질문“어떤 행동을 하면 장기적으로 가장 큰 보상을 얻을까?”1-1. 기본 구성 요소구성 요소설명예시환경 Environment에이전트가 상호작용하는 세계체스판, 자율주행 시뮬레이터, 전력망 시뮬레이터상태 State s환경의 현재 정보말의 위치, 자동차의 속도·좌표행동 Action a에이전트가 선택 가능한 움직임말을 한 칸 이동, 가속 페달..

* WINDOW에서 매번 아나콘다를 통해서 텐서플로를 설치하지만, GPU가 잘 잡히지 않아서 고생했을 때 해당 방법으로 문제를 해결하여 정리함. ** 설치 순서 1) ANACONDA 설치 -> ANACONDA를 설치하면 PYTHON과 많은 패키지 들이 한번에 설치 되는데 아래와 같이 Python 3.11 로 설치가 된다. 그러나 현재 tensorflow에서 윈도우로 아래와 같이 2.10이 GPU를 지원하는 마지막 릴리스로 2.10을 설치하기 위해서 PYHTON 3.11 보다 낮은 버전이 필요하다. --> 그래서 ANACONDA 설치 후 가상환경을 생성하고 그 환경에 PYTHON 3.9 버전을 설치하고 텐서플로를 실행하는 순서로 진행된다. 2) ANACONDA 설치 후 가상환경 생성 https://www...

https://www.yes24.com/Product/Goods/120528346 캐글 메달리스트가 알려주는 캐글 노하우 - 예스24 캐글, ML/AI 실무자답게 접근하라!국내 캐글 실력자 8명이 직접 설명하는 캐글 컴페티션,어떻게 접근해 얼마나 노력하느냐에 따라 경험의 깊이가 달라진다.국내 캐글 실력자 8명이 모였다. 직접 www.yes24.com * 해당 책의 내용을 보고 실습을 진행함. ### keyword 매직피처 , 전처리 (KernelPCA, Gaussian Mixture Model, Hist) , 1단계 모델 - NuSVC, QuadraticDiscriminant Analysis, SVC, KNeighborsClassifier, LogisticRegression 2단계 모델 LightGBM ..