qcoding

[AI논문리뷰-강화학습] DDPG - 연속 행동 공간에서 DQN의 아이디어를 Actor-Critic으로 확장한 딥강화학습 본문

AI논문리뷰-강화학습

[AI논문리뷰-강화학습] DDPG - 연속 행동 공간에서 DQN의 아이디어를 Actor-Critic으로 확장한 딥강화학습

Qcoding 2026. 5. 1. 14:13
반응형
논문  Continuous control with deep reinforcement learning 저자  Timothy P. Lillicrap, Jonathan J. Hunt, David Silver et al. (DeepMind) 학회/연도  ICLR 2016 arXiv  1509.02971

📄 한 문단 요약

DDPG(Deep Deterministic Policy Gradient)는 DeepMind가 2016년 ICLR에 발표한 연속 행동 공간(continuous action space) 강화학습 알고리즘이다. DQN의 세 가지 핵심 아이디어(심층 신경망, Experience Replay, Target Network)를 그대로 계승하되, 이산 행동만 처리하는 Q-learning 대신 Deterministic Policy Gradient(DPG) 이론을 기반으로 Actor-Critic 구조를 사용한다. Actor는 상태를 입력받아 결정론적으로 행동을 출력하고, Critic은 그 행동의 Q값을 추정한다. DQN과의 가장 큰 차이는 Target Network를 주기적 하드 복사가 아닌 Soft Update(θ' ← τθ + (1-τ)θ', τ=0.001)로 서서히 업데이트한다는 점이다. 탐험은 Ornstein-Uhlenbeck 노이즈로 수행한다. 단일 알고리즘으로 MuJoCo의 20개 이상 물리 시뮬레이션 태스크를 해결했으며, 환경의 완전한 동역학 정보를 아는 iLQG 플래너와 경쟁적인 성능을 달성했다.

이 논문은 무엇을 해결하려고 했나?

DQN은 강화학습 역사에서 획기적인 성과였지만 치명적인 제약이 있었다. 이산(discrete) 행동 공간에서만 작동한다는 것이다.

로봇 팔의 관절 토크, 자동차의 조향각, 사람형 로봇의 보행 제어처럼 실세계의 제어 문제는 대부분 연속 행동 공간을 가진다. 7-DOF 로봇 팔을 이산화하면 관절당 3개 값만 써도 3⁷ = 2,187개의 행동이 필요하다. 이것을 Q-learning으로 처리하려면 매 스텝마다 2,187번의 Q값 계산 중 최댓값을 찾아야 하는데, 이는 실시간으로는 불가능하다. 더 세밀한 이산화를 원하면 행동 수가 기하급수적으로 폭발한다.

이 논문이 던지는 질문은 명확하다. "DQN이 Atari에서 성공한 방식을 그대로 연속 제어 문제에도 적용할 수 있을까?"

답은 Silver et al.(2014)이 제안한 Deterministic Policy Gradient(DPG) 이론에 있었다. DPG는 연속 행동 공간에서 결정론적 정책의 기울기를 계산하는 방법을 제공한다. DDPG는 이 이론에 DQN의 안정화 기법을 결합해 고차원 연속 제어 문제를 처음으로 심층 신경망으로 해결했다.

배경지식과 핵심 키워드

핵심 개념 카드

Deterministic Policy Gradient (DPG)
Silver et al.(2014)이 증명한 정리. 결정론적 정책 μ(s)의 성능 기울기는 ∇J ≈ 𝔼[∇_a Q(s,a)|_{a=μ(s)} · ∇_θ μ(s|θ)]로 표현된다. Q값의 행동에 대한 기울기와 정책의 파라미터 기울기를 연쇄 법칙(chain rule)으로 곱한 형태다.
DDPG의 Actor 업데이트 방향이 이 공식 그대로다. Critic이 Q값의 기울기를 제공하고, Actor는 그 방향으로 파라미터를 업데이트한다.
확률적 정책(stochastic policy)과 달리 결정론적 정책은 상태-행동 공간 전체를 탐험하지 않아도 되므로 샘플 효율성이 높다. 단, 별도의 탐험 전략(OU 노이즈)이 필요하다.
Actor-Critic 구조
Actor(정책 네트워크)와 Critic(가치 네트워크) 두 신경망을 동시에 학습하는 구조. Actor μ(s|θ^μ)는 상태 s를 입력받아 행동을 출력한다. Critic Q(s,a|θ^Q)는 상태-행동 쌍의 가치를 추정한다.
DDPG에서 Actor는 DPG 정리에 따라 Critic이 제공하는 기울기 방향으로 업데이트된다. Critic은 DQN과 동일하게 벨만 방정식 기반 TD 학습으로 업데이트된다.
순수 value-based(DQN)보다 Actor-Critic이 연속 공간에서 유리한 이유는, 최적 행동을 모든 행동에 대해 탐색할 필요 없이 Actor를 직접 학습하기 때문이다.
Soft Target Update (소프트 업데이트)
타겟 네트워크 파라미터를 θ' ← τθ + (1-τ)θ'로 매 스텝 조금씩 업데이트한다. τ=0.001로 설정해 타겟이 극히 천천히 변한다.
DQN은 타겟 네트워크를 10,000 스텝마다 하드 복사(θ' ← θ)한다. DDPG의 소프트 업데이트는 훨씬 안정적인 학습 목표를 제공한다. 대신 변화가 너무 느려 초기 학습이 느릴 수 있다.
연속 제어처럼 Q값이 부드럽게 변하는 환경에서 소프트 업데이트가 하드 복사보다 학습 안정성이 높다. 실험에서 타겟 네트워크 없이 학습하면 성능이 크게 떨어진다.
Ornstein-Uhlenbeck (OU) 노이즈
물리 시스템에서 탐험을 위한 시간 상관(temporally correlated) 노이즈. 프로세스: dX_t = θ(μ - X_t)dt + σdW_t. 파라미터: θ=0.15(마찰계수), σ=0.2(변동성). 평균 0으로 회귀하는 특성이 있다.
ε-greedy는 이산 공간에서 자연스럽지만 연속 공간에서는 i.i.d. 가우시안 노이즈를 써도 된다. OU는 관성이 있는 물리 시스템에서 연속된 행동의 일관성을 유지해 더 의미 있는 탐험을 가능하게 한다.
예: 이전 스텝에서 오른쪽으로 0.5만큼 이동했다면, 다음 노이즈도 오른쪽 방향이 될 가능성이 높다. 이것은 실제 물리적 움직임과 유사한 탐험 패턴을 만든다.
Batch Normalization (배치 정규화)
미니배치 내에서 각 차원을 평균 0, 분산 1로 정규화하고 학습 가능한 scale/shift 파라미터 γ, β를 추가하는 기법. 추론 시에는 학습 중 계산한 이동평균을 사용한다.
DDPG는 20개 이상의 서로 다른 물리 태스크를 동일한 하이퍼파라미터로 처리한다. 위치(m), 속도(m/s), 각도(rad)처럼 단위와 스케일이 다른 관측값들을 정규화하지 않으면 학습이 불안정하다.
Actor 네트워크의 입력과 모든 은닉층에 적용. Critic의 경우 행동 입력 이전 레이어까지만 적용. 논문의 ablation에서 배치 정규화 제거 시 여러 태스크에서 학습 실패.
iLQG (iterative Linear Quadratic Gaussian)
환경의 완전한 동역학(dynamics) 모델과 그 미분값을 알 때 사용하는 최적 제어(optimal control) 알고리즘. 비선형 시스템을 선형 근사하여 최적 궤적을 반복적으로 계산한다.
DDPG 논문에서 iLQG는 "치트 코드"로서의 기준점(oracle baseline) 역할을 한다. 환경 모델을 몰라도 학습만으로 iLQG에 준하는 성능을 낸다는 것이 논문의 핵심 주장 중 하나다.
정규화 점수에서 0 = 무작위 정책, 1 = iLQG. DDPG가 여러 태스크에서 1을 초과(1.2, 1.5 등)한다는 것은 모델 기반 방법보다 좋은 정책을 찾았다는 의미다.
Off-Policy 학습과 Replay Buffer
행동 정책(behavior policy)과 학습 정책(target policy)이 다른 오프-폴리시 학습. DDPG에서 행동 정책은 μ(s) + OU 노이즈이고, 학습 정책은 결정론적 Actor μ(s)다.
DQN과 동일하게 100만 개 전환 (s, a, r, s') 버퍼에서 64개 미니배치를 무작위 샘플링한다. DPG 이론이 오프-폴리시 학습을 지원하므로 과거 탐험 데이터를 재사용할 수 있다.
결정론적 정책은 확률적 정책보다 샘플 효율이 높다. 같은 상태에서 항상 같은 행동을 취하므로 탐험 노이즈를 분리해 추가할 수 있고, 학습 중 노이즈를 제거한 순수한 정책을 평가할 수 있다.
MuJoCo (물리 시뮬레이터)
Multi-Joint dynamics with Contact. 물리적으로 정확한 로봇 및 생물체 시뮬레이션 환경. 연속 행동 공간(관절 토크)을 사용하며 강화학습 연구의 표준 벤치마크다.
DDPG는 cartpole, cheetah, walker, reacher, gripper, 보행 로봇(ant, hopper) 등 20개 이상의 태스크를 시험했다. 각 태스크는 서로 다른 관측 차원과 행동 차원을 가진다.
iLQG로 최적 제어가 가능한 환경이어서 비교 기준점으로 이상적이다. 실세계 로봇 학습의 프록시(proxy) 역할도 한다. 이후 거의 모든 연속 제어 강화학습 논문의 표준 벤치마크가 되었다.
Adam Optimizer와 서로 다른 학습률
DDPG는 Actor와 Critic에 서로 다른 학습률을 사용한다. Actor: α_μ = 10⁻⁴, Critic: α_Q = 10⁻³. Critic을 10배 빠르게 학습시킨다.
Actor 업데이트는 Critic이 제공하는 기울기에 완전히 의존한다. Critic이 아직 Q값을 정확히 추정하지 못한 상태에서 Actor가 빠르게 업데이트되면 잘못된 방향으로 수렴할 위험이 있다. Critic을 먼저 안정화시키는 학습률 배분이 이 위험을 줄인다.
Critic에는 L₂ weight decay (λ = 10⁻²)도 추가해 Q값 과대추정을 억제한다.
Tanh 활성화와 행동 범위 바운딩
Actor 출력층에 tanh를 사용해 행동값을 [-1, 1] 범위로 제한한다. 실제 행동 범위로 스케일링은 환경에서 처리한다. 중간 레이어는 ReLU를 사용한다.
연속 행동에 아무 제약이 없으면 학습 중 행동값이 폭발해 물리 시뮬레이터가 비정상적 상태에 빠질 수 있다. Tanh가 출력을 자연스럽게 클리핑한다.
Critic의 경우 행동 a는 2번째 은닉층(300유닛)에만 입력된다. 1번째 레이어(400유닛)는 상태만 처리한다. 이 설계는 상태 인코딩과 행동 결합을 분리해 학습 안정성을 높인다.

핵심 인사이트

DDPG는 DQN의 세 기둥(신경망 함수 근사 + Replay Buffer + Target Network)을 연속 공간으로 이식하는 데 성공했다. DPG 이론이 행동 기울기를 제공하고, 소프트 업데이트가 타겟 안정성을 강화하고, OU 노이즈가 물리적으로 자연스러운 탐험을 제공한다. 이 세 가지가 맞물려야 20개 태스크를 하나의 하이퍼파라미터 세트로 풀 수 있다.

기존 방법의 한계

이산화(discretization)의 폭발적 차원 증가. 7-DOF 로봇 팔을 관절당 3단계로 이산화하면 3⁷ = 2,187개의 행동이 필요하다. 10단계로 이산화하면 10⁷ = 1천만 개가 된다. DQN은 출력층 크기가 행동 수와 같으므로, 행동 수가 늘어날수록 네트워크 크기와 계산량이 폭발한다. 그리고 세밀한 제어가 불가능해진다.

확률적 정책 기울기(SPG)의 높은 분산. REINFORCE 계열의 확률적 정책 기울기는 행동의 기댓값으로 기울기를 추정하므로 분산이 크다. 고차원 연속 행동 공간에서는 이 분산이 너무 커서 학습이 매우 느리거나 수렴하지 않는다.

모델 기반 방법의 일반화 한계. iLQG 같은 최적 제어 방법은 환경 동역학을 알아야 한다. 실세계 로봇에는 적용하기 어렵고, 동역학이 조금만 달라져도 재설계가 필요하다.

제안 방법의 핵심 아이디어

DDPG의 핵심은 결정론적 정책을 Actor로, Q값 추정을 Critic으로 분리하고, DQN의 안정화 기법을 두 네트워크에 모두 적용하는 것이다.

Actor 업데이트 (DPG 이론 적용):

Critic이 계산한 Q(s, μ(s))를 상태 s에 대해 최대화하는 방향으로 Actor 파라미터를 업데이트한다:

∇_θ^μ J ≈ 𝔼[∇a Q(s,a|θ^Q)|{a=μ(s)} · ∇_θ^μ μ(s|θ^μ)]

이 수식은 연쇄 법칙이다. "Q를 높이려면 행동을 어떻게 바꿔야 하나?"(∇_a Q)와 "행동을 바꾸려면 파라미터를 어떻게 바꿔야 하나?"(∇_θ^μ μ)를 곱한 것이다.

Critic 업데이트 (DQN과 동일):

타겟 값: y_i = r_i + γ Q'(s_{i+1}, μ'(s_{i+1}|θ^{μ'})|θ^{Q'})

손실 함수: L = (1/N) Σ (y_i - Q(s_i, a_i|θ^Q))²

두 네트워크 모두에 별도의 타겟 네트워크(Q', μ')를 두고 소프트 업데이트로 관리한다.

탐험: 결정론적 정책에 OU 노이즈를 추가 a_t = μ(s_t|θ^μ_t) + N_t

모델 구조/알고리즘 흐름

저차원 상태 입력 네트워크:

Actor 네트워크:
  입력: 상태 s (저차원 관측값)
  배치 정규화
  FC1: 400유닛 + ReLU + 배치 정규화
  FC2: 300유닛 + ReLU
  출력: 행동 차원 + Tanh   → [-1, 1]

Critic 네트워크:
  입력: 상태 s
  배치 정규화
  FC1: 400유닛 + ReLU          ← 상태만 처리
  FC2: 300유닛 + ReLU          ← 행동 a 합류 (concat)
  출력: 스칼라 Q(s, a)          선형 활성화

픽셀 입력 네트워크:

Actor & Critic (공유 인코더):
  Conv1: 32 필터, stride=4, ReLU
  Conv2: 32 필터, stride=2, ReLU
  Conv3: 32 필터, stride=1, ReLU
  FC1: 200유닛 + ReLU
  FC2: 200유닛 + ReLU
  (이후 Actor/Critic 각자 출력층)

DDPG 학습 알고리즘:

# 초기화
Actor μ(s; θ^μ), Critic Q(s,a; θ^Q) 무작위 초기화
Target networks: θ^μ' ← θ^μ, θ^Q' ← θ^Q
Replay buffer D ← 빈 버퍼 (크기 10^6)
OU 노이즈 프로세스 N 초기화 (θ=0.15, σ=0.2)

for episode in range(M):
    s_1 ← 환경 초기화
    for t in range(T):
        # OU 노이즈 추가로 탐험
        a_t = μ(s_t; θ^μ) + N_t
        r_t, s_{t+1} ← env.step(a_t)
        D.store((s_t, a_t, r_t, s_{t+1}))
        
        # 미니배치 학습
        (s_i, a_i, r_i, s_{i+1}) ← D.sample(64)
        y_i = r_i + γ * Q'(s_{i+1}, μ'(s_{i+1}; θ^μ'); θ^Q')
        
        # Critic 업데이트 (Adam, lr=1e-3)
        θ^Q ← minimize L = mean((y_i - Q(s_i,a_i; θ^Q))^2)
        
        # Actor 업데이트 (Adam, lr=1e-4)
        θ^μ ← maximize mean(Q(s_i, μ(s_i; θ^μ); θ^Q))
        
        # Soft update (매 스텝)
        θ^Q' ← τ*θ^Q + (1-τ)*θ^Q'  # τ = 0.001
        θ^μ' ← τ*θ^μ + (1-τ)*θ^μ'

논문 그림/표로 이해하기

DDPG로 학습한 MuJoCo 물리 시뮬레이션 태스크 예시 - cartpole, 파지, 보행, 자동차 레이싱
Figure 1. DDPG가 학습한 대표 환경들. 위에서부터: Cartpole swing-up, 물체 잡기(grasping), 파지 태스크, 사람형 보행, TORCS 레이싱 게임. 출처: Lillicrap et al., "Continuous control with deep reinforcement learning", ICLR 2016. arXiv:1509.02971 — arXiv 라이선스 하에 인용.
DDPG 주요 환경별 학습 성능 곡선 - 타겟 네트워크 유무, 배치 정규화 유무 비교
Figure 2. 선택된 태스크에서의 성능 곡선. DDPG(full)와 타겟 네트워크 제거, 배치 정규화 제거 버전을 비교한다. 타겟 네트워크와 배치 정규화 모두 안정적인 학습에 필수적임을 보여준다. 출처: Lillicrap et al., arXiv:1509.02971 — arXiv 라이선스 하에 인용.
태스크 저차원 평균 저차원 최고 픽셀 평균 비고
Cartpole 0.844 1.115 0.482 iLQG 초과
Cheetah 0.903 1.206 0.457 iLQG 초과
Walker2d 0.705 1.573 0.944 iLQG 큰 폭 초과
Reacher 0.720 0.987 0.194 픽셀에서 어려움
✦ 전체 (20개 태스크) 대부분 0.7 이상 여러 태스크 1.0+ 단순 태스크 가능 2.5M 스텝 내
논문 Table 1 주요 결과 재구성. 점수 0=무작위, 1=iLQG(최적 제어). 5번 실험의 평균·최고 점수. 출처: Lillicrap et al., ICLR 2016.

실험 설정과 결과 해석

실험 환경. MuJoCo 물리 시뮬레이터에서 20개 이상의 태스크를 테스트했다. 각 태스크마다 (1) 저차원 관측값(관절 각도·속도 등)과 (2) 픽셀 입력 두 가지 조건으로 실험했다. 같은 아키텍처와 하이퍼파라미터를 모든 태스크에 사용했다.

학습 설정. 태스크당 약 2.5백만 스텝을 학습했다. DQN이 Atari에서 5천만 스텝을 사용한 것에 비하면 20배 적다. 각 실험을 5번 반복해 평균과 최고 점수를 보고했다.

비교 기준. 무작위 정책을 0, iLQG를 1로 정규화한 점수를 사용한다. iLQG는 환경의 완전한 동역학과 그 미분을 알기 때문에 진정한 "치트 코드"에 해당한다. DDPG가 1을 초과한다는 것은 완전 동역학 정보가 있는 알고리즘보다 좋은 정책을 찾았다는 의미다.

핵심 결과. Cartpole, Cheetah, Walker2d 등에서 저차원 입력 시 이미 iLQG와 경쟁적이며, 최고 기록에서는 iLQG를 초과(1.115~1.573)한다. 픽셀 입력에서도 단순 태스크에서는 가능성을 보였다. Ablation에서 타겟 네트워크 제거는 대부분의 태스크에서 학습 붕괴를 야기하고, 배치 정규화 제거는 멀티 태스크 일반화를 크게 해친다.

DDPG가 추정한 Q값과 실제 관측된 누적 보상 간 상관관계
Figure 3. 테스트 에피소드에서 추정 Q값 분포와 실제 관측 누적 보상 비교. Q값 추정이 실제 반환값에 가깝게 수렴함을 보여준다. 다만 약간의 과대추정(overestimation)이 존재한다. 출처: Lillicrap et al., arXiv:1509.02971 — arXiv 라이선스 하에 인용.

핵심 인사이트

2.5M 스텝은 DQN의 50M 스텝보다 20배 적다. 이것이 연속 제어에서 결정론적 정책의 효율성을 보여준다. 확률적 정책은 같은 상태에서도 다른 행동을 취하므로 분산이 크다. 결정론적 정책 + 외부 노이즈 탐험은 Q 추정의 정확도를 높여 수렴이 빠르다.

한계와 비판적 관점

샘플 효율성 문제. 2.5M 스텝이 DQN보다 적다고 해도, 실세계 로봇 학습에는 여전히 수백만 번의 상호작용이 필요하다. 실제 물리 로봇에서 이 수의 상호작용을 수행하면 수십 시간이 걸린다. 이 한계는 논문 자체에서도 인정한다.

수렴 보장 부재. 신경망 함수 근사와 오프-폴리시 학습의 결합은 수렴을 이론적으로 보장하지 않는다. 실험에서는 안정적으로 동작하지만 경우에 따라 발산하거나 지역 최적에 빠질 수 있다.

Q값 과대추정. Figure 3에서 확인되듯, DDPG도 Q값을 약간 과대추정하는 경향이 있다. DQN과 같은 max 연산을 사용하므로 이 문제가 상존한다. 이후 TD3(Twin Delayed DDPG) 논문이 Clipped Double Q-learning으로 이 문제를 해결한다.

하이퍼파라미터 민감성. OU 노이즈 파라미터(θ, σ), 배치 크기, 학습률 비율(α_μ/α_Q)이 태스크마다 최적값이 다를 수 있다. 논문에서는 동일한 세트로 20개를 풀었다고 하지만, 일부 태스크에서는 결과 분산이 크다.

확장성의 한계. 매우 고차원 연속 행동 공간(예: 100-DOF 이상)이나 희소 보상(sparse reward) 환경에서의 성능은 검증되지 않았다. 이 경우 HER(Hindsight Experience Replay) 같은 추가 기법이 필요하다.

재현성. 초기 랜덤 시드와 환경 랜덤성에 따른 성능 분산이 크다. 논문에서 5번 실험의 평균을 보고했지만, 이후 연구들에서 DDPG의 실험 간 분산이 매우 크다는 것이 지적되었다.

구현하거나 응용한다면 무엇을 봐야 하나?

하이퍼파라미터 체크리스트:

파라미터 의미
Actor 학습률 1e-4 Adam
Critic 학습률 1e-3 Adam (Actor의 10배)
할인율 γ 0.99 미래 보상 할인
Soft update τ 0.001 타겟 네트워크 업데이트 비율
Replay buffer 크기 10^6 전환 저장 용량
미니배치 크기 64 (저차원), 16 (픽셀) 샘플 수
L2 weight decay 1e-2 Critic에만 적용
OU θ (마찰) 0.15 노이즈 평균 회귀 속도
OU σ (변동성) 0.2 노이즈 크기

구현 시 주의사항. Critic에 행동을 두 번째 레이어에 입력하는 것이 중요하다. 첫 번째 레이어에 행동을 넣으면 학습이 불안정하다는 것이 경험적으로 알려져 있다. 또한 Actor 출력에 tanh를 적용하면서 실제 행동 스케일로 선형 변환하는 작업을 주의해야 한다.

배치 정규화 구현. 학습 시 미니배치 통계(mean, std)를 사용하고, 추론 시 이동평균 통계를 사용하는 것이 필수다. PyTorch의 nn.BatchNorm1d를 사용하고 model.train()/model.eval() 모드 전환을 반드시 처리해야 한다.

현재 실용적 선택. DDPG는 이후 여러 개선 버전이 나왔다. 실제 프로젝트에서는:

  • TD3 (Fujimoto et al., 2018): Clipped Double Q-learning + Delayed Policy Update + Target Policy Smoothing으로 DDPG를 크게 개선
  • SAC (Haarnoja et al., 2018): 최대 엔트로피 프레임워크의 확률적 Actor-Critic. 현재 대부분의 연속 제어 문제에서 기본 선택
  • PPO (Schulman et al., 2017): 온-폴리시지만 더 안정적이고 단순. 환경 접근이 빠를 때 유리

DDPG 자체는 연속 제어 강화학습을 이해하기 위한 이론적 출발점으로서 여전히 중요하다.

한 줄 결론과 다음에 읽을 논문

한 줄 결론: DDPG는 DQN의 안정화 아이디어(Replay Buffer + Target Network)와 DPG 이론을 결합해 연속 행동 공간 강화학습을 최초로 심층 신경망으로 풀었으며, 소프트 업데이트와 OU 노이즈라는 두 가지 실용적 장치가 연속 제어에서의 핵심 기여다.

다음에 읽을 논문:

  • TD3 (Fujimoto et al., 2018, arXiv:1802.09477): DDPG의 Q값 과대추정 문제를 세 가지 기법으로 해결. DDPG 직계 후속.
  • SAC (Haarnoja et al., 2018, arXiv:1801.01290): 최대 엔트로피 기반 확률적 Actor-Critic. 현재 연속 제어 강화학습의 사실상 표준.
  • PPO (Schulman et al., 2017, arXiv:1707.06347): 온-폴리시 정책 기울기의 최강 버전. DDPG와 상보적인 접근.
  • DPG (Silver et al., 2014): DDPG의 이론적 기반. Deterministic Policy Gradient 정리 원문.
  • HER (Andrychowicz et al., 2017, arXiv:1707.01495): 희소 보상 환경에서 DDPG와 결합해 로봇 조작 태스크를 풀기 위한 Hindsight Experience Replay.

출처:

  • Lillicrap et al., "Continuous control with deep reinforcement learning", ICLR 2016. https://arxiv.org/abs/1509.02971
  • Silver et al., "Deterministic Policy Gradient Algorithms", ICML 2014. (DDPG의 이론적 기반)
반응형
Comments