BC-Z: Zero-Shot Task Generalization with Robotic Imitation Learning
BC-Z: 로봇 모방학습을 이용한 제로샷 태스크 일반화
Eric Jang, Alex Irpan, Mohi Khansari, et al. (2021)
언어로 조건화된 모방 학습(language-conditioned imitation learning)을 통해 학습 시 본 적 없는 새로운 로봇 조작 과제에 제로샷으로 일반화할 수 있는 BC-Z(Behavioral Cloning - Zero-shot) 프레임워크이다.
배경
기존 로봇 모방 학습은 특정 과제별로 시연 데이터를 수집하고 별도의 정책을 학습해야 했다. 새로운 과제가 추가될 때마다 추가 시연이 필요하며, 학습 시 본 적 없는 과제에는 적용할 수 없었다. 자연어를 과제 명세(task specification)로 활용하면 과제 간 공유된 구조를 학습하여 새로운 과제로의 일반화가 가능할 것이라는 가설이 있었으나, 이를 실제 로봇 환경에서 대규모로 검증한 연구는 부족했다.
핵심 아이디어
BC-Z는 대규모 다과제 시연 데이터셋(100개 이상의 과제, 총 약 36,000 에피소드)을 수집하고, 자연어 지시와 비디오 시연 모두를 과제 조건으로 사용할 수 있는 통합 정책을 학습한다. 정책 네트워크는 현재 이미지 관측과 언어 임베딩(또는 시연 비디오 임베딩)을 입력으로 받아 로봇 행동을 출력한다. 핵심 통찰은 충분히 다양한 과제에서 학습하면, 정책이 '언어가 묘사하는 의미'를 이해하여 새로운 조합의 객체-동사에 대해서도 적절한 행동을 생성할 수 있다는 것이다.
방법론
실제 로봇(UR5e 팔)으로 100개 이상의 과제에 대한 원격 조작 시연을 수집한다. 각 시연에는 자연어 지시가 태깅된다. 정책은 ResNet 기반 이미지 인코더와 사전학습된 언어 모델 임베딩을 결합하여 연속 행동을 예측하는 FiLM-conditioned 네트워크로 구성된다. 시연 비디오 조건화 모드에서는 동일 과제의 다른 시연 비디오를 인코딩하여 조건으로 사용한다.
주요 결과
학습 시 본 적 없는 과제에서 평균 약 44%의 제로샷 성공률을 달성했으며, 일부 간단한 과제에서는 90% 이상의 성공률을 보였다. 언어 조건화와 비디오 조건화 모두 효과적이었으며, 과제 수가 증가할수록 제로샷 일반화 성능이 향상되는 스케일링 경향을 확인했다.
임팩트
BC-Z는 언어 조건화 로봇 정책의 제로샷 일반화 가능성을 대규모 실제 로봇 실험으로 처음 입증하여, 이후 RT-1, RT-2 등 대규모 로봇 학습 연구의 직접적인 선구자가 되었다. '더 많은 과제 데이터 → 더 나은 일반화'라는 스케일링 가설을 로봇 학습에서 실증하여, 범용 로봇 정책(generalist robot policy) 연구의 방향을 제시했다.