ICLR 2020Citations: 1,500+

Dream to Control: Learning Behaviors by Latent Imagination

꿈꾸며 제어하기: 잠재 상상을 통한 행동 학습

Danijar Hafner, Timothy Lillicrap, Jimmy Ba, Mohammad Norouzi (2020)

잠재 공간(latent space)에서 환경 역학 모델을 학습하고, 이 모델의 상상(imagination) 속에서 액터-크리틱을 학습하는 모델 기반 강화학습 알고리즘으로, 잠재 상상 속의 역전파를 통해 장기 행동을 효율적으로 학습한다.

배경

모델 기반 강화학습은 환경 모델을 학습하여 샘플 효율을 높이는 접근법이지만, 이미지와 같은 고차원 관측 공간에서의 세계 모델 학습은 어렵고, 학습된 모델의 예측 오류가 누적되어 장기 계획에 한계가 있었다. World Models(Ha & Schmidhuber, 2018)가 잠재 공간에서의 환경 모델링을 제안했지만, 정책 학습이 진화 전략에 의존하여 확장성이 제한적이었다.

핵심 아이디어

DreamerV1(Dreamer)은 RSSM(Recurrent State-Space Model)을 세계 모델로 사용하여 잠재 역학을 학습한 후, 이 모델 내에서 완전히 상상으로만 경험을 생성하고 액터-크리틱을 학습한다. 핵심 혁신은 상상된 궤적에 대해 역전파(backpropagation through imagination)를 수행하여 정책을 학습한다는 것이다. RSSM은 결정론적 경로(GRU)와 확률론적 상태(가우시안 잠재 변수)를 결합하여, 부분 관측 환경에서도 효과적으로 상태를 추론한다. 세계 모델은 관측 재구성, 보상 예측, 할인 예측의 세 가지 손실로 학습되며, 정책은 모델 내에서 시뮬레이션된 경험의 가치를 최대화하도록 학습된다.

방법론

학습은 세 단계를 반복한다: (1) 실제 환경과 상호작용하여 경험을 리플레이 버퍼에 저장, (2) 버퍼에서 시퀀스를 샘플링하여 RSSM 세계 모델 학습, (3) 학습된 모델의 잠재 공간에서 상상 롤아웃을 생성하고 액터-크리틱 학습. 액터는 상상된 가치의 그래디언트를 역전파하여 학습하며, 크리틱은 λ-리턴을 타겟으로 학습한다.

주요 결과

DeepMind Control Suite 20개 과제에서 기존 모델 기반(PlaNet, SLAC) 및 모델 프리(D4PG, A3C) 알고리즘을 상회했다. 특히 샘플 효율에서 모델 프리 방법 대비 20배 이상 적은 상호작용으로 동등한 성능을 달성했으며, 이미지 입력에서도 안정적으로 작동했다.

임팩트

DreamerV1은 잠재 상상 속 정책 학습이라는 체계적 프레임워크를 확립하여, 이후 DreamerV2(이산 잠재 표현, Atari 마스터), DreamerV3(범용 하이퍼파라미터) 시리즈의 기반이 되었다. RSSM은 세계 모델의 표준 아키텍처로 자리잡았으며, 모델 기반 RL이 이미지 기반 연속 제어에서 실용적으로 적용 가능함을 증명한 전환점이 되었다.

관련 Foundation 논문

관련 논문