arXivCitations: 100+

GameNGen: Diffusion Models Are Real-Time Game Engines

GameNGen: 확산 모델은 실시간 게임 엔진이다

Dani Valevski, Yaniv Leviathan, Moab Arar, Shlomi Fruchter (2024)

디퓨전 모델이 게임 엔진을 대체하여 클래식 FPS 게임 DOOM을 실시간으로 인터랙티브하게 시뮬레이션하는 데 최초로 성공한 뉴럴 게임 엔진으로, 게임 코드 없이 플레이어 입력에 반응하는 프레임을 초당 20프레임 이상으로 생성한다.

배경

게임 엔진은 전통적으로 수작업 물리 시뮬레이션, 렌더링 파이프라인, 게임 로직 코드로 구현된다. 한편 비디오 생성 모델의 발전으로 사실적인 영상 생성이 가능해졌지만, 실시간 상호작용과 긴 시간 동안의 일관성을 유지하는 것은 여전히 어려웠다. 뉴럴 네트워크가 게임의 물리, 렌더링, 로직을 모두 내재화하여 완전한 게임 경험을 제공할 수 있는지가 근본적 질문이었다.

핵심 아이디어

GameNGen은 두 단계로 구성된다. 첫째, RL 에이전트(PPO로 학습)가 DOOM을 플레이하며 대규모 게임 세션 데이터(행동-프레임 시퀀스)를 생성한다. 둘째, 안정적 디퓨전(Stable Diffusion) 기반 모델을 이 데이터로 미세조정하여, 이전 프레임들과 플레이어 행동을 조건으로 다음 프레임을 생성하도록 학습한다. 핵심 기술적 혁신은 노이즈 증강(noise augmentation)으로, 학습 시 조건 프레임에 다양한 수준의 노이즈를 추가하여 자기회귀 생성 시의 오류 누적을 방지한다. 이를 통해 수 분간의 안정적인 실시간 게임 플레이가 가능해진다.

방법론

PPO로 학습된 에이전트가 DOOM을 플레이하며 9억 프레임의 학습 데이터를 생성한다. Stable Diffusion 1.4를 기반으로, U-Net의 입력에 이전 프레임(최대 64프레임 히스토리)과 행동을 조건으로 주입한다. 학습 시 조건 프레임에 무작위 노이즈를 추가하되, 노이즈 수준도 U-Net에 입력하여 노이즈 수준을 인식하게 한다. 추론 시에는 3.4 디노이징 스텝만으로 단일 TPU v5에서 20FPS 이상을 달성한다.

주요 결과

인간 평가자가 실제 DOOM 게임 클립과 GameNGen이 생성한 클립을 구분하지 못하는 수준의 시각적 품질을 달성했다(짧은 클립에서 58.4%의 정확도로 사실상 랜덤 수준). LPIPS 메트릭에서 JPEG과 유사한 수준의 프레임 품질을 보였다. 에이전트가 적을 쏘고, 문을 열고, 아이템을 줍는 등 게임의 핵심 메카닉이 정확히 시뮬레이션되었다.

임팩트

GameNGen은 뉴럴 네트워크가 완전한 인터랙티브 게임 엔진으로 기능할 수 있음을 최초로 증명하여, 게임 개발과 시뮬레이션의 미래에 대한 근본적 질문을 제기했다. Sora, Genie와 함께 인터랙티브 세계 시뮬레이션이라는 새로운 연구 분야를 형성하고 있으며, 코드 없는 게임 엔진, 학습 기반 물리 시뮬레이션, 그리고 범용 세계 모델 연구에 중요한 이정표가 되었다.

관련 Foundation 논문

관련 논문