CLIPort: What and Where Pathways for Robotic Manipulation
CLIPort: 로봇 조작을 위한 What and Where 경로
Mohit Shridhar, Lucas Manuelli, Dieter Fox (2021)
CLIP의 시맨틱 이해 능력과 Transporter Network의 공간적 정밀도를 결합하여, 자연어 지시로 로봇 조작 과제를 수행하는 언어 조건화 모방 학습 프레임워크이다.
배경
로봇 조작에서 시맨틱 이해(어떤 물체를 어디에 놓을지)와 공간적 정밀도(정확한 픽 앤 플레이스 위치)는 모두 필수적이지만, 기존 방법들은 둘 중 하나에 치우치는 경향이 있었다. Transporter Network는 정밀한 공간적 추론에 뛰어나지만 시맨틱 이해가 부족했고, CLIP은 풍부한 시맨틱 표현을 제공하지만 픽셀 수준의 공간적 정밀도는 보장하지 못했다.
핵심 아이디어
CLIPort는 두 스트림 아키텍처를 통해 CLIP의 시맨틱 특징과 Transporter의 공간적 특징을 융합한다. Transporter Network의 파이프라인을 유지하되, 각 단계(pick과 place)에서 CLIP 비전 인코더의 다중 스케일 특징 맵을 추출하여 Transporter의 공간 스트림과 결합한다. 자연어 지시는 CLIP의 텍스트 인코더를 통해 인코딩되어 시맨틱 스트림에 조건으로 주입된다. 이를 통해 '빨간 블록을 녹색 그릇에 넣어'같은 언어 지시에 따라 정확한 위치를 추론할 수 있다.
방법론
CLIP의 비전 인코더(ResNet-50)에서 다중 해상도 특징을 추출하고, 텍스트 인코더로 언어 지시를 인코딩한다. CLIP 특징을 Transporter의 attention과 transport 모듈에 주입하되, CLIP 가중치는 동결하고 융합 레이어만 학습한다. 시뮬레이션(Ravens 벤치마크)에서 10개 과제에 대해 실험하며, 과제당 1~1000개의 시연으로 학습한다.
주요 결과
10개의 테이블탑 조작 과제에서 기존 Transporter Network과 언어 조건화 베이스라인을 크게 상회했다. 특히 소수 시연(1~10개)으로도 높은 성능을 보였으며, 학습 시 보지 못한 새로운 속성 조합(예: 새로운 색상-객체 조합)에 대한 일반화에서 CLIP 사전학습의 효과가 뚜렷했다.
임팩트
CLIPort는 사전학습된 비전-언어 모델(VLM)을 로봇 조작에 활용하는 효과적인 방법을 제시하여, 파운데이션 모델과 로봇 학습의 연결 고리를 형성했다. 이후 SayCan, VIMA, PerAct 등 언어 조건화 로봇 조작 연구에 직접적 영향을 미쳤으며, 시맨틱 이해와 공간적 정밀도의 결합이라는 설계 원칙은 이후 많은 로봇 조작 시스템에서 채택되었다.