일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | ||||
4 | 5 | 6 | 7 | 8 | 9 | 10 |
11 | 12 | 13 | 14 | 15 | 16 | 17 |
18 | 19 | 20 | 21 | 22 | 23 | 24 |
25 | 26 | 27 | 28 | 29 | 30 | 31 |
- React
- pandas
- 리액트네이티브
- GYM
- TeachagleMachine
- 클론코딩
- Instagrame clone
- Reinforcement Learning
- python
- FirebaseV9
- App
- selenium
- 앱개발
- 조코딩
- coding
- JavaScript
- 강화학습
- 사이드프로젝트
- redux
- ReactNative
- kaggle
- 강화학습 기초
- 데이터분석
- clone coding
- 머신러닝
- 카트폴
- expo
- Ros
- 전국국밥
- 딥러닝
- Today
- Total
목록머신러닝 딥러닝 (29)
qcoding
15. 맺음말 & 향후 전망 “시행착오를 통한 학습”이라는 단순한 아이디어는 게임을 넘어 로봇·에너지·화학·추천 시스템 등 현실 문제로 빠르게 확장되고 있습니다.15-1. 10줄 요약 – 강화학습 핵심 정리 문제 공식화 : 현실 프로세스 → MDP $\langle \mathcal{S},\mathcal{A},P,R,\gamma\rangle$ 가치 vs 정책 : $V/Q$ 로 평가, $\pi$ 로 행동 규정 벨만 방정식 : 자기 일관성 → DP · TD · MC 모든 기초 탐험–활용 딜레마 : ε-greedy, UCB, TS, 엔트로피 보너스 함수 근사 : 타일코딩 → DNN, 표현력·샘플효율 Trade-off 정책 기반 : REINFORCE → Advantage → Act..
14. 모델 배포 & 운영 강화학습 실험이 끝나면 ① 안전하게 저장 → ② 저지연 추론 서비스 → ③ 실시간 모니터링 세 단계로 프로덕션 파이프라인을 구성합니다.14-1. 학습된 에이전트 저장·로딩라이브러리저장로딩포인트 Stable Baselines3 model.save("ppo.zip") PPO.load("ppo.zip", env) env 스케일러·노말라이저도 자동 직렬화 PyTorch torch.save(net.state_dict(), "agent.pt") net.load_state_dict(...) 함수 정의 동일해야 함 (동일 클래스) ONNX torch.onnx.export(..., "agent.onnx") ONNX Runtime / Triton 플랫폼 독립 ·..
13. 주요 도구 & 라이브러리 실험을 “5분 만에” 돌릴 수 있는 세팅부터, 대규모 클러스터 학습까지— 가장 많이 사용하는 Gym / Stable Baselines3, 그리고 TensorFlow vs PyTorch 선택 가이드를 한눈에 정리했습니다.13-1. OpenAI Gym & Stable Baselines3 빠른 시작 그림 1-A · OpenAI Gym 그림 1-B · Stable Baselines 3# 1️⃣ 설치pip install "gymnasium[classic_control]" stable-baselines3[extra]# 2️⃣ 환경 만들기import gymnasium as gymenv = gym.make("CartPole-v1")# 3️⃣ 학습from..
12. 실전 프로젝트 & 사례 연구 “논문 속 알고리즘이 실제 비즈니스 임팩트로 이어지려면?” 이 장에서는 환경 선정→목표 정의→튜닝→배포까지 실무 흐름을 단계별 체크리스트로 제시합니다.12-1. 환경 선정 & 목표 정의스텝핵심 질문Tip 문제 타입 구분 Discrete vs Continuous?단일 vs 다중 에이전트?MAB vs MDP? 문제가 순차적 결정인지 먼저 확인.정적 추천은 Supervised 가 더 적합. 환경 난이도(탐험 곤란도) 보상 희소/지연?상태 차원 수? 첫 프로토타입은 MiniGrid · CartPole · Pendulum 같은가벼운 환경으로 검증 → 점진 확장. 성공 지표 Return 외 KPI? (비용↓, 생산↑, 안전↑) 프로덕션에서는..
11. 고급 기법 & 최신 토픽 딥 RL의 실전 적용은 안정성·샘플 효율·확장성·탐험 네 기둥에 달려 있습니다. 이번 장에서는 PPO · SAC를 비롯해 대규모 분산·멀티에이전트·밴디트 탐험 전략까지 최신 흐름을 한눈에 정리합니다.11-1. Proximal Policy Optimization (PPO)아이디어클립 손실 “정책이 한 번에 너무 멀리이동하지 않도록 완충을 두자.” $$\mathcal{L}^{\text{CLIP}}(\theta)= \mathbb{E}\Bigl[ \min\Bigl( r_t(\theta)A_t,\; \text{clip}\!\bigl(r_t(\theta),1\!-\!\epsilon,1\!+\!\eps..
10. Actor–Critic 구조 (A2C·A3C) & Advantage 함수 Actor–Critic(AC)은 정책(Actor) 과 가치 추정(Critic)을 동시에 학습해 정책 기반 방법의 높은 표현력과 TD 부트스트랩의 샘플 효율을 결합합니다. 그림 1. Actor–Critic 상호작용 ⟶ TD 오차 δ가 정책을 곧바로 갱신한다.10-1. A2C (Advantage Actor-Critic) 동기식 A2C : N개의 워커가 동시에 n-step Return을 계산, 미니배치로 정책/가치 네트워크를 업데이트. Advantage $A_t = R_t^{(n)} - V_\phi(S_t)$ 를 이용해 baseline 분산↓. 목표 손실 $$\mathcal{L} = \..
9. 정책 기반 방법 (Policy Gradient) 가치기반(Q) 방법이 “가치를 올리며 탐욕적 행동”에 의존한다면, 정책 기반(Policy Gradient)은 “정책 그 자체”를 매개변수화해 곧바로 최적화를 시도합니다.9-1. REINFORCE 알고리즘Montezuma’s Revenge처럼 희소 · 고차원 보상 환경에서, 미끄러운 Q 값 추정 대신 정책 확률 $\pi_\theta(a\mid s)$ 를 직접 조정하는 접근입니다. $$\nabla_\theta J(\theta)= \mathbb{E}_{\pi_\theta}\!\bigl[ G_t \,\nabla_\theta \log\pi_\theta(A_t\mid S_t) \bigr] \quad\tex..
8. 딥 강화학습(Deep RL) 기초 – DQN 2015년 DeepMind의 DQN(Deep Q-Network)은 픽셀 입력만으로 Atari 2600 게임들을 사람 수준으로 플레이하며 “딥러닝 + 강화학습” 시대를 열었습니다. 핵심은 표준 Q-Learning에 두 가지 안정화 기법을 더한 것입니다.8-1. DQN 아키텍처블록설명입력state $s$ (원본 픽셀·연속 벡터 모두 가능)피처 추출 CNN / MLP2~3 Conv + ReLU + FC (Atari)또는 2~3 FC (CartPole 등 저차원)출력층$\hat Q(s,a;\theta)$ – 각 행동에 대한 Q-값 $$L(\theta)=\mathbb{E}_{(s,a,r,s')\sim\mathcal{D}} \Bigl[\bigl(..