Notice
Recent Posts
Recent Comments
Link
반응형
| 일 | 월 | 화 | 수 | 목 | 금 | 토 |
|---|---|---|---|---|---|---|
| 1 | 2 | |||||
| 3 | 4 | 5 | 6 | 7 | 8 | 9 |
| 10 | 11 | 12 | 13 | 14 | 15 | 16 |
| 17 | 18 | 19 | 20 | 21 | 22 | 23 |
| 24 | 25 | 26 | 27 | 28 | 29 | 30 |
| 31 |
Tags
- Ros
- python
- 딥러닝
- Ai
- ReactNative
- Reinforcement Learning
- 사이드프로젝트
- 머신러닝
- 데이터분석
- coding
- JavaScript
- 클론코딩
- 강화학습 기초
- 강화학습
- expo
- 전국국밥
- 카트폴
- Instagrame clone
- App
- 음성합성
- 논문리뷰
- clone coding
- 앱개발
- FirebaseV9
- TeachagleMachine
- selenium
- DeepMind
- pandas
- TTS
- React
Archives
- Today
- Total
목록ICLR2024 (1)
qcoding
[AI논문리뷰-강화학습] Eureka - GPT-4가 보상 함수를 직접 코딩해 29개 로봇 태스크에서 인간 전문가를 넘어선 LLM 기반 자동 보상 설계
논문 Eureka: Human-Level Reward Design via Coding Large Language Models 저자 Yecheng Jason Ma et al. (UPenn, NVIDIA, UT Austin) 학회/연도 ICLR 2024 arXiv 2310.12931📄 한 문단 요약강화학습에서 보상 함수 설계는 도메인 전문 지식이 필요한 고난도 작업이다. Eureka는 GPT-4에게 환경 소스 코드를 직접 제공하고 실행 가능한 Python 보상 함수를 생성하게 한 뒤, 진화적 검색과 보상 반성(Reward Reflection)으로 반복 개선한다. 템플릿이나 수작업 없이 29개 로봇 태스크 중 83%에서 인간 전문가 설계 보상을 평균 52% 초과하고, 처음으로 Shadow Hand의 ..
AI논문리뷰-강화학습
2026. 5. 2. 10:30