UniSim: Learning Interactive Real-World Simulators
UniSim: 인터랙티브 실세계 시뮬레이터 학습
Mengjiao Yang, Yilun Du, Kamyar Ghasemipour, et al. (2023)
인터넷 비디오, 로봇 데이터, 시뮬레이터 데이터를 통합 학습하여 다양한 행동에 반응하는 상호작용형 실세계 시뮬레이터를 구축하고, 이를 통해 로봇 정책을 현실 전이(sim-to-real) 없이 학습할 수 있음을 보여준 범용 시뮬레이터 모델이다.
배경
로봇 정책 학습은 대규모 실세계 상호작용 데이터의 부족이 핵심 병목이다. 물리 시뮬레이터(MuJoCo, Isaac Sim)는 현실 격차(reality gap) 문제가 있고, 인터넷 비디오는 대규모이지만 행동 레이블이 없으며 상호작용적이지 않다. 다양한 데이터 소스를 결합하여 상호작용 가능한 실세계 시뮬레이터를 구축할 수 있다면, 로봇 학습의 데이터 부족 문제를 근본적으로 해결할 수 있을 것이라는 비전이 있었다.
핵심 아이디어
UniSim은 '행동'의 개념을 통일하여 다양한 수준의 제어 신호를 하나의 모델로 처리한다. 고수준 행동(자연어 설명: '컵을 왼쪽으로 밀어'), 중수준 행동(카메라 이동), 저수준 행동(로봇 엔드이펙터 궤적)을 모두 하나의 비디오 생성 모델의 조건으로 사용한다. 인터넷 비디오에서는 언어 조건화, 로봇 데이터에서는 행동 조건화, 시뮬레이터 데이터에서는 물리적 상호작용을 학습하여, 이들을 결합하면 언어 지시에 반응하면서도 물리적으로 그럴듯한 비디오 시뮬레이션을 생성할 수 있다.
방법론
비디오 디퓨전 모델을 기반으로 하며, 다양한 행동 유형을 조건으로 받아 다음 비디오 프레임을 생성한다. 인터넷 비디오(텍스트 캡션), 로봇 조작 데이터(엔드이펙터 궤적), 인터넷 네비게이션 데이터(방향 명령)를 통합 학습한다. 학습된 시뮬레이터에서 강화학습(PPO)이나 모방 학습으로 정책을 학습하고, 이를 실제 로봇에 직접 전이한다.
주요 결과
학습된 시뮬레이터에서 훈련한 로봇 정책이 실제 환경에 zero-shot으로 전이되어 작동했다. 장기 비디오 생성에서도 시각적 일관성을 유지했으며, 다양한 행동 유형(언어, 궤적, 방향)에 대해 그럴듯한 상호작용 영상을 생성했다. 텍스트 조건 비디오 생성에서는 기존 비디오 생성 모델과 경쟁적 품질을 보였다.
임팩트
UniSim은 '학습된 범용 시뮬레이터'라는 비전을 구체화하여, Sora, Genie 등 세계 시뮬레이터 연구의 흐름에서 로봇 학습에의 직접적 적용 가능성을 보여주었다. 인터넷 비디오와 로봇 데이터의 통합 학습이라는 접근법은 데이터 스케일링의 새로운 방향을 제시했으며, 물리 시뮬레이터를 학습된 모델로 대체하는 패러다임 전환을 시사했다.