Mastering Diverse Domains through World Models
월드 모델을 통한 다양한 도메인 마스터하기
Danijar Hafner, Jurgis Pasukonis, Jimmy Ba, Timothy Lillicrap (2023)
심볼릭 이산 표현, 하이퍼파라미터 고정, 그리고 안정화된 학습 기법을 결합한 범용 월드 모델 강화학습 알고리즘으로, 하이퍼파라미터 수정 없이 150개 이상의 다양한 도메인에서 작동하며 최초로 마인크래프트에서 다이아몬드를 획득했다.
배경
모델 기반 강화학습(Model-based RL)은 환경 모델을 학습하여 상상(imagination) 속에서 정책을 학습함으로써 샘플 효율을 높이는 접근법이다. DreamerV1, V2가 Atari 등에서 성과를 보였지만, 도메인마다 하이퍼파라미터 조정이 필요했으며 보상의 스케일, 관측의 차원, 행동 공간의 유형이 크게 다른 도메인 간 전환이 어려웠다. 마인크래프트 다이아몬드 획득은 희소 보상, 장기 계획, 다양한 서브태스크를 요구하는 극히 어려운 벤치마크였다.
핵심 아이디어
DreamerV3는 세 가지 핵심 혁신으로 범용성을 달성한다. 첫째, 이산 잠재 표현(categorical latent)을 사용하여 세계 모델이 다양한 유형의 환경을 일관되게 표현할 수 있다. 둘째, symlog 예측(symlog predictions)으로 보상과 가치의 스케일 문제를 해결한다. symlog(x) = sign(x)·log(|x|+1) 변환을 통해 크기가 매우 다른 보상을 통일적으로 처리한다. 셋째, 정책 학습 시 리턴을 백분위 기반으로 정규화하여 도메인에 무관한 목표 스케일을 유지한다. 이 조합으로 단일 설정이 모든 도메인에서 작동한다.
방법론
RSSM(Recurrent State-Space Model)을 기반으로 한 세계 모델이 관측을 이산 잠재 상태로 인코딩하고, GRU 기반 시퀀스 모델이 전이를 예측한다. 세계 모델의 상상 속에서 Actor-Critic을 학습하며, 액터는 symlog 변환된 리턴의 백분위 정규화된 값을 최대화한다. 가치 함수는 이산 회귀(discrete regression)로 학습하여 분포적 가치 추정의 이점을 얻는다.
주요 결과
Atari 200M, DMC Vision, DMC Proprio, BSuite, Crafter, Minecraft 등 150개 이상의 과제에서 단일 하이퍼파라미터 설정으로 평가했다. 대부분의 도메인에서 도메인별 튜닝된 기존 최고 알고리즘과 동등하거나 우수한 성능을 보였다. 마인크래프트에서는 기존에 어떤 RL 에이전트도 달성하지 못한 다이아몬드 획득을 최초로 성공시켰다.
임팩트
DreamerV3는 '단일 알고리즘, 단일 하이퍼파라미터로 모든 도메인'이라는 범용 RL의 이상에 가장 가까이 다가간 성과로, 모델 기반 RL의 실용성을 획기적으로 증명했다. 이후 대규모 세계 모델과 범용 에이전트 연구의 핵심 참조점이 되었으며, 마인크래프트 다이아몬드 획득은 장기 계획 능력의 중요한 이정표가 되었다.