Genie: Generative Interactive Environments
Genie: 생성적 상호작용 환경
Jake Bruce, Michael Dennis, Ashley Edwards, et al. (2024)
단일 이미지에서 플레이 가능한 2D 게임 환경을 생성하는 모델로, 잠재 행동 모델(latent action model)을 통해 라벨 없이 행동 공간을 학습한다.
배경
인터랙티브 환경 생성은 비디오 생성보다 더 어려운 과제로, 사용자 입력에 따라 일관되게 반응하는 동적 세계를 만들어야 한다. 기존 세계 모델은 특정 게임이나 환경에 특화되어 있었으며, 범용적인 인터랙티브 환경 생성은 미개척 분야였다.
핵심 아이디어
Genie는 세 가지 구성요소로 이루어진다. (1) 잠재 행동 모델(Latent Action Model): 비디오 프레임 쌍 사이의 변환을 분석하여, 행동 라벨 없이도 이산적 잠재 행동 공간을 자동으로 학습한다. (2) 비디오 토크나이저: VQ-VAE로 프레임을 이산 토큰으로 변환한다. (3) 동역학 모델: MaskGIT 스타일의 트랜스포머가 현재 프레임과 잠재 행동을 조건으로 다음 프레임을 생성한다. 핵심은 인터넷의 플랫포머 게임 영상에서 행동 라벨 없이 학습하여, 추론 시 사용자가 잠재 행동을 선택하여 환경과 상호작용할 수 있다는 것이다.
방법론
200,000시간 이상의 인터넷 게임 영상에서 학습한다. ST-transformer(Spatiotemporal Transformer)로 시공간 토큰을 처리하며, VQ 코드북으로 행동을 이산화한다. 텍스트 프롬프트나 단일 이미지에서 인터랙티브 환경을 생성할 수 있다.
주요 결과
단일 이미지에서 일관된 물리적 동역학을 가진 플레이 가능한 2D 환경을 생성했다. 학습된 잠재 행동이 실제 게임 조작(이동, 점프 등)과 의미적으로 대응함을 확인했다. 11B 파라미터 모델에서 가장 좋은 품질을 달성했다.
임팩트
인터랙티브 세계 생성이라는 새로운 연구 분야를 개척했다. AI가 단순히 콘텐츠를 생성하는 것을 넘어 상호작용 가능한 환경을 만들 수 있음을 보여주었으며, 게임 개발, 시뮬레이션, 로봇 학습을 위한 환경 생성 등에 광범위한 응용 가능성을 제시했다.