Video generation models as world simulators
세계 시뮬레이터로서의 비디오 생성 모델
OpenAI (2024)
시공간 패치에 대한 디퓨전 트랜스포머로 1분 이상의 일관된 비디오를 생성하며, 비디오 생성 모델이 세계 시뮬레이터로 기능할 수 있음을 제시한 기술 보고서.
배경
비디오 생성은 이미지 생성보다 훨씬 어려운 과제로, 시간적 일관성, 물리적 사실성, 긴 시퀀스 생성이 핵심 도전이었다. 기존 모델들은 짧은 클립이나 낮은 해상도에 제한되었으며, 현실 세계의 동역학을 일관되게 시뮬레이션하는 데 한계가 있었다.
핵심 아이디어
Sora는 비디오를 시공간 패치(spacetime patches)로 토큰화하여 트랜스포머의 확장성을 비디오 도메인에 가져온다. 다양한 해상도, 종횡비, 길이의 비디오를 통일된 표현으로 처리할 수 있다. 디퓨전 트랜스포머(DiT) 아키텍처를 사용하여 노이즈에서 고품질 비디오를 생성하며, 텍스트 조건부 생성이 가능하다. 핵심 관찰은 학습 데이터와 모델을 충분히 확장하면 비디오 모델이 3D 일관성, 물체 영속성, 물리적 상호작용 등 세계의 성질을 자연스럽게 학습한다는 것이다.
방법론
비디오를 시각 인코더로 저차원 시공간 잠재 공간에 압축하고, 시공간 패치로 분할한다. 디퓨전 트랜스포머가 노이즈 패치에서 깨끗한 잠재 패치를 예측하며, 텍스트 프롬프트로 생성을 조건화한다. 대규모 비디오-텍스트 데이터에서 학습했다.
주요 결과
최대 1분 길이의 고품질 1080p 비디오를 생성하며, 카메라 이동, 물체 상호작용, 장면 전환 등에서 높은 시각적 일관성을 보였다. 물리적 시뮬레이션과 3D 공간 이해 능력이 출현했으나, 일부 물리 법칙 위반도 관찰되었다.
임팩트
비디오 생성의 품질과 길이에서 전례 없는 도약을 이루어, 영상 제작과 시각 콘텐츠 산업에 혁명적 변화를 예고했다. '비디오 생성 모델 = 세계 시뮬레이터'라는 비전을 제시하여, 월드 모델 연구에 새로운 방향을 열었다.