'ICLR2024' 태그의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2026/05 »
일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

Tags more

Archives

Today

Total

관리 메뉴

목록ICLR2024 (1)

qcoding

[AI논문리뷰-강화학습] Eureka - GPT-4가 보상 함수를 직접 코딩해 29개 로봇 태스크에서 인간 전문가를 넘어선 LLM 기반 자동 보상 설계

논문 Eureka: Human-Level Reward Design via Coding Large Language Models 저자 Yecheng Jason Ma et al. (UPenn, NVIDIA, UT Austin) 학회/연도 ICLR 2024 arXiv 2310.12931📄 한 문단 요약강화학습에서 보상 함수 설계는 도메인 전문 지식이 필요한 고난도 작업이다. Eureka는 GPT-4에게 환경 소스 코드를 직접 제공하고 실행 가능한 Python 보상 함수를 생성하게 한 뒤, 진화적 검색과 보상 반성(Reward Reflection)으로 반복 개선한다. 템플릿이나 수작업 없이 29개 로봇 태스크 중 83%에서 인간 전문가 설계 보상을 평균 52% 초과하고, 처음으로 Shadow Hand의 ..

AI논문리뷰-강화학습 2026. 5. 2. 10:30

Prev 1 Next

목록ICLR2024 (1)

qcoding

티스토리툴바