World Models
월드 모델
David Ha, Jürgen Schmidhuber (2018)
VAE(시각) + MDN-RNN(동역학) + 작은 컨트롤러로 구성된 월드 모델을 학습하고, '꿈(dream)' 속에서 에이전트를 훈련할 수 있음을 보인 논문.
배경
모델 프리 강화학습은 환경과의 막대한 상호작용을 필요로 하며, 이는 실제 세계 적용에서 큰 제약이다. 인간은 세상의 내부 모델을 구축하여 상상 속에서 계획하고 행동을 시뮬레이션하는데, 이를 AI에 구현하려는 시도가 월드 모델 연구의 기원이다.
핵심 아이디어
세 가지 모듈로 구성된다. (1) Vision Model (VAE): 고차원 관측을 저차원 잠재 벡터 z로 압축한다. (2) Memory Model (MDN-RNN): 잠재 상태의 시간적 동역학을 학습하여 미래 상태의 확률 분포를 예측한다. 혼합 밀도 네트워크(MDN)로 다중 모드 분포를 포착한다. (3) Controller: 작은 선형 모델이 z와 RNN 은닉 상태를 입력받아 행동을 출력한다. 핵심 아이디어는 학습된 월드 모델 내부에서 완전히 시뮬레이션된 환경('꿈')을 만들어 컨트롤러를 훈련하는 것이다.
방법론
먼저 랜덤 정책으로 환경 데이터를 수집하여 VAE와 MDN-RNN을 학습한다. 이후 학습된 월드 모델에서 생성된 가상 롤아웃으로 CMA-ES 진화 전략을 사용해 컨트롤러를 최적화한다. CarRacing-v0과 VizDoom 환경에서 실험했다.
주요 결과
CarRacing에서 꿈 속 학습만으로 경쟁력 있는 성능을 달성했으며, 실제 환경 상호작용을 대폭 줄였다. VizDoom에서도 월드 모델 기반 학습의 가능성을 확인했으나, 모델 부정확성으로 인한 한계도 관찰되었다.
임팩트
월드 모델 기반 강화학습의 현대적 프레임워크를 확립했다. 이후 Dreamer 시리즈, PlaNet 등 잠재 공간 월드 모델 연구의 직접적 기반이 되었으며, Sora와 같은 비디오 생성 모델이 세계 시뮬레이터로 발전하는 사상적 기원이 되었다.