'2026/05 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2026/05 »
일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

Tags more

Archives

Today

Total

관리 메뉴

목록2026/05 (24)

qcoding

논문 Self-Attentive Sequential Recommendation 저자 Wang-Cheng Kang, Julian McAuley (UC San Diego) 학회/연도 ICDM 2018 arXiv 1808.09781 코드 official GitHub한 문단 요약SASRec은 사용자의 클릭·구매·시청 순서를 다음 아이템 추천 문제로 보고, RNN이나 CNN 대신 Transformer의 self-attention을 적용한 순차 추천 모델이다. Markov Chain처럼 최근 행동에 집중할 수 있으면서도, RNN처럼 긴 문맥을 볼 수 있다는 점이 핵심이다. Amazon Beauty/Games, Steam, MovieLens-1M 실험에서 SASRec은 PopRec, BPR, FMC/FPMC..

AI논문리뷰-추천알고리즘 2026. 5. 6. 21:24

논문 Wide & Deep Learning for Recommender Systems 저자 Heng-Tze Cheng et al. (Google) 학회/연도 DLRS@RecSys 2016 / arXiv 2016 arXiv 1606.07792 Google Research Publication page한 문단 요약Wide & Deep Learning은 추천 랭킹에서 자주 본 feature 조합을 정확히 기억하는 wide linear model과, 처음 보는 조합까지 부드럽게 일반화하는 deep neural network를 함께 학습하는 구조다. Google Play 추천 시스템에 적용했을 때 offline AUC는 Wide 0.726, Deep 0.722, Wide & Deep 0.728로 차이가 ..

AI논문리뷰-추천알고리즘 2026. 5. 6. 21:15

논문 BERT4Rec: Sequential Recommendation with Bidirectional Encoder Representations from Transformer 저자 Fei Sun et al. 학회/연도 CIKM 2019 arXiv 1904.06690 코드 official GitHub한 문단 요약BERT4Rec은 사용자의 과거 클릭, 구매, 시청 기록을 왼쪽에서 오른쪽으로만 읽던 순차 추천 모델의 한계를 BERT식 양방향 Transformer로 푼 논문이다. 핵심은 미래 아이템을 직접 보게 되는 정보 누수를 막기 위해 일부 아이템을 [mask]로 가리고 주변 문맥으로 맞히는 Cloze objective를 추천에 적용한 점이다. Beauty, Steam, MovieLens 1M/2..

AI논문리뷰-추천알고리즘 2026. 5. 6. 21:13

논문 Session-based Recommendations with Recurrent Neural Networks 저자 Balázs Hidasi et al. 학회/연도 ICLR 2016 Conference Track / arXiv 2015-2016 arXiv 1511.06939한 문단 요약이 논문은 로그인 사용자 이력 없이 현재 세션의 짧은 클릭 흐름만 보고 다음 아이템을 추천하는 문제를 RNN, 특히 GRU로 풀었다. 핵심은 세션을 하나의 시퀀스로 보고, 마지막 클릭 하나만 보는 Item-KNN 대신 지금까지의 클릭 순서를 hidden state에 누적하는 것이다. 여기에 session-parallel mini-batch, mini-batch 기반 negative sampling, BPR/TOP..

AI논문리뷰-추천알고리즘 2026. 5. 6. 21:09

논문 Neural Collaborative Filtering 저자 Xiangnan He et al. 학회/연도 WWW 2017 arXiv 1708.05031 코드 official GitHub한 문단 요약NCF는 추천 시스템의 고전적 핵심인 행렬분해(Matrix Factorization)를 "사용자 벡터와 아이템 벡터의 내적"으로 고정하지 말고, 신경망이 사용자-아이템 상호작용 함수를 직접 배우게 하자는 논문이다. 저자들은 GMF, MLP, NeuMF 세 모델을 제안했고, MovieLens 1M과 Pinterest implicit feedback 실험에서 NeuMF가 HR@10, NDCG@10 기준으로 BPR/eALS보다 평균 4~5%가량 높은 성능을 보였다고 보고한다. 지금 보면 단순한 구조지만..

AI논문리뷰-추천알고리즘 2026. 5. 6. 21:04

[AI논문리뷰-강화학습] Eureka - GPT-4가 보상 함수를 직접 코딩해 29개 로봇 태스크에서 인간 전문가를 넘어선 LLM 기반 자동 보상 설계

논문 Eureka: Human-Level Reward Design via Coding Large Language Models 저자 Yecheng Jason Ma et al. (UPenn, NVIDIA, UT Austin) 학회/연도 ICLR 2024 arXiv 2310.12931📄 한 문단 요약강화학습에서 보상 함수 설계는 도메인 전문 지식이 필요한 고난도 작업이다. Eureka는 GPT-4에게 환경 소스 코드를 직접 제공하고 실행 가능한 Python 보상 함수를 생성하게 한 뒤, 진화적 검색과 보상 반성(Reward Reflection)으로 반복 개선한다. 템플릿이나 수작업 없이 29개 로봇 태스크 중 83%에서 인간 전문가 설계 보상을 평균 52% 초과하고, 처음으로 Shadow Hand의 ..

AI논문리뷰-강화학습 2026. 5. 2. 10:30

[AI논문리뷰-강화학습] Dreamer 4 - 확장 가능한 세계 모델 안에서 에이전트를 학습시켜 Minecraft 다이아몬드를 오프라인으로 최초 획득

논문 Training Agents Inside of Scalable World Models 저자 Hafner*, Yan*, Lillicrap (Google DeepMind, 공동 1저자) 발표 arXiv:2509.24527, 2025년 9월 arXiv 2509.24527📄 한 문단 요약Dreamer 4는 Google DeepMind가 2025년 9월 발표한 세계 모델 강화학습 프레임워크다. 핵심은 세 단계다: ① 2B 파라미터 확산 기반 세계 모델(Causal Tokenizer + Interactive Dynamics)을 대규모 비디오로 사전훈련, ② 최소한의 레이블 데이터로 파인튜닝해 정책·보상 예측 헤드 추가, ③ 실제 환경 없이 세계 모델 안에서만 강화학습(PMPO). 결과적으로 오프라인 ..

AI논문리뷰-강화학습 2026. 5. 2. 10:16

[AI논문리뷰-강화학습] DreamerV2 - 이산 잠재 변수와 KL 균형으로 Atari 55개 게임을 인간 수준으로 정복한 세계 모델 RL

논문 Mastering Atari with Discrete World Models 저자 Hafner et al. (Google Research / DeepMind) 학회/연도 ICLR 2021 arXiv 2010.02193📄 한 문단 요약DreamerV2는 ICLR 2021에 발표된 Dreamer의 직접 후속으로, 연속 잠재 변수(Gaussian) 대신 32×32 범주형(categorical) 잠재 변수와 KL 균형(KL balancing)을 도입해 이산 행동 공간인 Atari로 확장했다. 단일 GPU에서 200M 환경 스텝, 468억 개의 상상 상태를 학습해 55개 Atari 게임의 게이머 정규화 중간값에서 Rainbow를 능가하고 인간 수준 성능을 달성했다. 연속 제어 전용이었던 Dreame..

AI논문리뷰-강화학습 2026. 5. 2. 09:58

Prev 1 2 3 Next

목록2026/05 (24)

qcoding

티스토리툴바