'머신러닝 딥러닝' 카테고리의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/05 »
일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록머신러닝 딥러닝 (29)

qcoding

[강화학습-15] 맺음말 향후 전망 – 강화학습 로드맵

15. 맺음말 & 향후 전망 “시행착오를 통한 학습”이라는 단순한 아이디어는 게임을 넘어 로봇·에너지·화학·추천 시스템 등 현실 문제로 빠르게 확장되고 있습니다.15-1. 10줄 요약 – 강화학습 핵심 정리 문제 공식화 : 현실 프로세스 → MDP $\langle \mathcal{S},\mathcal{A},P,R,\gamma\rangle$ 가치 vs 정책 : $V/Q$ 로 평가, $\pi$ 로 행동 규정 벨만 방정식 : 자기 일관성 → DP · TD · MC 모든 기초 탐험–활용 딜레마 : ε-greedy, UCB, TS, 엔트로피 보너스 함수 근사 : 타일코딩 → DNN, 표현력·샘플효율 Trade-off 정책 기반 : REINFORCE → Advantage → Act..

머신러닝 딥러닝 2025. 5. 28. 17:53

[강화학습-14] 모델 배포 운영 – 저장·서비스·모니터링

14. 모델 배포 & 운영 강화학습 실험이 끝나면 ① 안전하게 저장 → ② 저지연 추론 서비스 → ③ 실시간 모니터링 세 단계로 프로덕션 파이프라인을 구성합니다.14-1. 학습된 에이전트 저장·로딩라이브러리저장로딩포인트 Stable Baselines3 model.save("ppo.zip") PPO.load("ppo.zip", env) env 스케일러·노말라이저도 자동 직렬화 PyTorch torch.save(net.state_dict(), "agent.pt") net.load_state_dict(...) 함수 정의 동일해야 함 (동일 클래스) ONNX torch.onnx.export(..., "agent.onnx") ONNX Runtime / Triton 플랫폼 독립 ·..

머신러닝 딥러닝 2025. 5. 28. 17:50

[강화학습-13] 도구 · 라이브러리 모음 – Gym · Stable Baselines3 · TF vs PyTorch

13. 주요 도구 & 라이브러리 실험을 “5분 만에” 돌릴 수 있는 세팅부터, 대규모 클러스터 학습까지— 가장 많이 사용하는 Gym / Stable Baselines3, 그리고 TensorFlow vs PyTorch 선택 가이드를 한눈에 정리했습니다.13-1. OpenAI Gym & Stable Baselines3 빠른 시작 그림 1-A · OpenAI Gym 그림 1-B · Stable Baselines 3# 1️⃣ 설치pip install "gymnasium[classic_control]" stable-baselines3[extra]# 2️⃣ 환경 만들기import gymnasium as gymenv = gym.make("CartPole-v1")# 3️⃣ 학습from..

머신러닝 딥러닝 2025. 5. 28. 17:43

[강화학습-12] 실전 프로젝트 사례 연구 – 환경 선정, 튜닝, 시뮬레이터 연동

12. 실전 프로젝트 & 사례 연구 “논문 속 알고리즘이 실제 비즈니스 임팩트로 이어지려면?” 이 장에서는 환경 선정→목표 정의→튜닝→배포까지 실무 흐름을 단계별 체크리스트로 제시합니다.12-1. 환경 선정 & 목표 정의스텝핵심 질문Tip 문제 타입 구분 Discrete vs Continuous?단일 vs 다중 에이전트?MAB vs MDP? 문제가 순차적 결정인지 먼저 확인.정적 추천은 Supervised 가 더 적합. 환경 난이도(탐험 곤란도) 보상 희소/지연?상태 차원 수? 첫 프로토타입은 MiniGrid · CartPole · Pendulum 같은가벼운 환경으로 검증 → 점진 확장. 성공 지표 Return 외 KPI? (비용↓, 생산↑, 안전↑) 프로덕션에서는..

머신러닝 딥러닝 2025. 5. 28. 17:40

11. 고급 기법 & 최신 토픽 딥 RL의 실전 적용은 안정성·샘플 효율·확장성·탐험 네 기둥에 달려 있습니다. 이번 장에서는 PPO · SAC를 비롯해 대규모 분산·멀티에이전트·밴디트 탐험 전략까지 최신 흐름을 한눈에 정리합니다.11-1. Proximal Policy Optimization (PPO)아이디어클립 손실 “정책이 한 번에 너무 멀리이동하지 않도록 완충을 두자.” $$\mathcal{L}^{\text{CLIP}}(\theta)= \mathbb{E}\Bigl[ \min\Bigl( r_t(\theta)A_t,\; \text{clip}\!\bigl(r_t(\theta),1\!-\!\epsilon,1\!+\!\eps..

머신러닝 딥러닝 2025. 5. 28. 17:37

[강화학습-10] 액터-크리틱(Actor-Critic)

10. Actor–Critic 구조 (A2C·A3C) & Advantage 함수 Actor–Critic(AC)은 정책(Actor) 과 가치 추정(Critic)을 동시에 학습해 정책 기반 방법의 높은 표현력과 TD 부트스트랩의 샘플 효율을 결합합니다. 그림 1. Actor–Critic 상호작용 ⟶ TD 오차 δ가 정책을 곧바로 갱신한다.10-1. A2C (Advantage Actor-Critic) 동기식 A2C : N개의 워커가 동시에 n-step Return을 계산, 미니배치로 정책/가치 네트워크를 업데이트. Advantage $A_t = R_t^{(n)} - V_\phi(S_t)$ 를 이용해 baseline 분산↓. 목표 손실 $$\mathcal{L} = \..

머신러닝 딥러닝 2025. 5. 28. 17:34

[강화학습-9] 정책 기반 방법 (Policy Gradient) – REINFORCE

9. 정책 기반 방법 (Policy Gradient) 가치기반(Q) 방법이 “가치를 올리며 탐욕적 행동”에 의존한다면, 정책 기반(Policy Gradient)은 “정책 그 자체”를 매개변수화해 곧바로 최적화를 시도합니다.9-1. REINFORCE 알고리즘Montezuma’s Revenge처럼 희소 · 고차원 보상 환경에서, 미끄러운 Q 값 추정 대신 정책 확률 $\pi_\theta(a\mid s)$ 를 직접 조정하는 접근입니다. $$\nabla_\theta J(\theta)= \mathbb{E}_{\pi_\theta}\!\bigl[ G_t \,\nabla_\theta \log\pi_\theta(A_t\mid S_t) \bigr] \quad\tex..

머신러닝 딥러닝 2025. 5. 28. 17:25

[강화학습-8] 딥 강화학습(Deep RL) 기초 – DQN

8. 딥 강화학습(Deep RL) 기초 – DQN 2015년 DeepMind의 DQN(Deep Q-Network)은 픽셀 입력만으로 Atari 2600 게임들을 사람 수준으로 플레이하며 “딥러닝 + 강화학습” 시대를 열었습니다. 핵심은 표준 Q-Learning에 두 가지 안정화 기법을 더한 것입니다.8-1. DQN 아키텍처블록설명입력state $s$ (원본 픽셀·연속 벡터 모두 가능)피처 추출 CNN / MLP2~3 Conv + ReLU + FC (Atari)또는 2~3 FC (CartPole 등 저차원)출력층$\hat Q(s,a;\theta)$ – 각 행동에 대한 Q-값 $$L(\theta)=\mathbb{E}_{(s,a,r,s')\sim\mathcal{D}} \Bigl[\bigl(..

머신러닝 딥러닝 2025. 5. 28. 17:23

Prev 1 2 3 4 Next

목록머신러닝 딥러닝 (29)

qcoding

티스토리툴바