arXivCitations: 500+

RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

RT-2: 비전-언어-행동 모델이 웹 지식을 로봇 제어로 전이

Anthony Brohan, Noah Brown, Justice Carbajal, et al. (2023)

대규모 비전-언어 모델(VLM)을 로봇 행동 데이터로 미세조정하여, 시각 관측을 텍스트 토큰 형태의 로봇 행동으로 직접 변환하는 비전-언어-행동(Vision-Language-Action) 모델이다.

배경

SayCan 등의 기존 접근법은 LLM을 고수준 계획기로만 활용하고 저수준 제어는 별도의 정책에 의존했다. RT-1은 로봇 데이터로 학습한 전용 모델로 실시간 제어에 성공했지만, 인터넷 규모의 지식을 활용하지 못하는 한계가 있었다. 대규모 사전학습된 VLM의 시각적 이해와 추론 능력을 저수준 로봇 제어에 직접 활용하는 것이 과제였다.

핵심 아이디어

RT-2는 로봇 행동을 텍스트 토큰으로 표현하여, VLM의 출력으로 직접 로봇을 제어할 수 있게 한다. 로봇의 연속적인 행동(팔 이동, 그리퍼 열림/닫힘 등)을 256개의 구간으로 이산화하여 정수 토큰으로 인코딩한다. 예를 들어 '1 128 91 241 5 101 127'이 팔의 7-DoF 행동을 나타낸다. PaLI-X(55B)나 PaLM-E(12B) 같은 사전학습된 VLM을 로봇 궤적 데이터로 미세조정하면, 모델이 '빨간 블록을 잡아라'라는 지시와 카메라 이미지를 입력받아 행동 토큰을 직접 생성한다. 인터넷 규모의 사전학습 덕분에 로봇 데이터에 없는 새로운 객체나 개념에 대한 제로샷 일반화가 가능하다.

방법론

PaLI-X 또는 PaLM-E를 백본으로 사용하며, 웹 데이터와 로봇 에피소드 데이터를 함께 사용하여 미세조정한다(co-fine-tuning). 로봇 데이터는 기존 RT-1 데이터셋을 재활용하며, 행동 토큰은 기존 어휘에 추가하지 않고 숫자 토큰을 재사용한다. 추론 시 이미지와 언어 지시를 입력으로 받아 다음 행동 토큰 시퀀스를 자기회귀적으로 생성한다.

주요 결과

RT-1 대비 학습 시 본 객체와 시나리오에서 동등한 성능을 유지하면서, 보지 못한 객체, 배경, 환경에 대한 일반화에서 크게 향상되었다. 특히 '테일러 스위프트 근처의 음료를 가져와' 같은 상징적 추론이 필요한 과제에서 RT-2(PaLI-X 55B)가 62%의 성공률을 보인 반면 RT-1은 0%였다.

임팩트

RT-2는 대규모 인터넷 사전학습 지식을 로봇 제어에 직접 전이하는 것이 가능함을 증명하여, 로봇 파운데이션 모델의 가능성을 열었다. VLA(Vision-Language-Action) 모델이라는 새로운 패러다임을 확립하여 이후 RT-X, Octo, OpenVLA 등 범용 로봇 정책 연구의 방향을 제시했다. 로봇 공학과 멀티모달 AI의 융합이 가속화되는 계기가 되었다.

관련 Foundation 논문

관련 논문