RT-1: Robotics Transformer for Real-World Control at Scale
RT-1: 대규모 실세계 제어를 위한 로보틱스 트랜스포머
Anthony Brohan, Noah Brown, Justice Carbajal, et al. (2022)
130,000개의 실제 로봇 시연으로 학습한 대규모 Robotics Transformer 모델로, 단일 정책으로 700개 이상의 다양한 과제에서 97%의 성공률을 달성하며 실세계 로봇 학습의 새로운 패러다임을 제시했다.
배경
기존 로봇 학습 연구는 대부분 시뮬레이션이나 소규모 실제 데이터에 의존했으며, 과제 수가 제한적이었다. NLP와 컴퓨터 비전에서 데이터와 모델 규모의 확장이 극적인 성능 향상을 가져왔지만, 로봇 학습에서는 실제 데이터 수집의 높은 비용과 안전 제약으로 인해 유사한 스케일링이 시도되지 못했다. 다양한 과제를 단일 모델로 처리하면서도 실시간 추론이 가능한 아키텍처가 필요했다.
핵심 아이디어
RT-1(Robotics Transformer 1)은 '대규모 실제 로봇 데이터 + Transformer 아키텍처 = 범용 로봇 정책'이라는 스케일링 가설을 실증한다. 13대의 실제 로봇으로 17개월에 걸쳐 수집한 130K 에피소드를 사용하며, FiLM으로 언어 지시를 조건화한 EfficientNet 이미지 인코더와 TokenLearner로 압축된 시각 토큰을 Transformer에 입력하여 이산화된 행동 토큰을 출력한다. TokenLearner가 이미지 토큰 수를 크게 줄여 실시간(3Hz) 추론이 가능하며, 행동을 256개의 구간으로 이산화하여 분류 문제로 변환한다.
방법론
6장의 이미지 히스토리와 자연어 지시를 입력으로 받아, EfficientNet-B3로 이미지 특징을 추출하고 FiLM 레이어로 언어 조건화한다. TokenLearner가 81개의 토큰을 8개로 압축한 후, Transformer 디코더가 7자유도 팔 행동(x, y, z, roll, pitch, yaw, gripper) + 베이스 이동(x, y, yaw) + 종료 모드를 이산 토큰으로 출력한다.
주요 결과
700개 이상의 과제에서 97%의 성공률을 달성했으며, 학습 시 보지 못한 새로운 객체와 배경에 대해서도 76%의 일반화 성능을 보였다. SayCan과 결합하여 장기 과제 수행에서도 기존 시스템 대비 2배 이상의 성공률 향상을 달성했다. 데이터 다양성이 증가할수록 일반화 성능이 향상되는 스케일링 법칙을 확인했다.
임팩트
RT-1은 대규모 실제 로봇 데이터를 활용한 범용 로봇 정책 학습이 실제로 가능함을 증명하여, 로봇 학습 분야의 패러다임 전환을 이끌었다. 이후 RT-2(VLM 활용), RT-X(다기관 데이터 통합), Open X-Embodiment 등 대규모 로봇 파운데이션 모델 연구의 출발점이 되었으며, Google DeepMind의 로봇 연구 방향을 결정짓는 핵심 성과가 되었다.