RSS 2023Citations: 400+

Learning Fine-Grained Bimanual Manipulation with Low-Cost Hardware

저비용 하드웨어를 이용한 정밀 양손 조작 학습

Tony Z. Zhao, Vikash Kumar, Sergey Levine, Chelsea Finn (2023)

저비용 양팔(bimanual) 원격 조작 하드웨어 시스템과 행동 청킹(Action Chunking with Transformers, ACT) 학습 알고리즘을 결합하여, 정밀한 양팔 조작 과제를 소수의 시연만으로 학습할 수 있는 로봇 시스템이다.

배경

정밀한 양팔 조작(예: 신발끈 묶기, 지퍼 올리기)은 로봇 학습의 오래된 난제이다. 고품질 양팔 시연 데이터 수집을 위한 원격 조작 시스템은 대부분 수십만 달러의 비용이 들어 접근성이 낮았다. 또한 행동 복제(behavioral cloning)는 축적되는 오류(compounding error) 문제로 정밀한 다단계 과제에서 성능이 급격히 저하되는 한계가 있었다.

핵심 아이디어

ALOHA의 핵심은 하드웨어와 알고리즘의 공동 혁신에 있다. 하드웨어 측면에서, 각 2만 달러 미만의 저비용 ViperX 로봇 팔 4개(리더 2개 + 팔로워 2개)로 구성된 양팔 원격 조작 시스템을 설계한다. 알고리즘 측면에서, ACT(Action Chunking with Transformers)는 단일 타임스텝의 행동 대신 미래 k 스텝의 행동 시퀀스(청크)를 한 번에 예측하는 CVAE(Conditional VAE) + Transformer 구조를 사용한다. 행동 청킹은 각 예측 간의 시간적 일관성을 보장하고, 축적 오류를 효과적으로 줄인다. CVAE의 스타일 변수는 시연의 다양한 전략을 포착하여 모드 평균화(mode averaging) 문제를 완화한다.

방법론

리더 로봇을 인간이 직접 조작하면 팔로워 로봇이 동일한 동작을 실시간으로 모방하며 시연을 기록한다. ACT는 관절 위치와 카메라 이미지를 입력으로 받아 CVAE 인코더가 스타일 변수 z를 생성하고, Transformer 디코더가 z에 조건화된 k-스텝 행동 청크를 출력한다. 과제당 50회 이내의 시연으로 학습하며, temporal ensembling으로 연속된 청크 간의 전환을 부드럽게 한다.

주요 결과

핀 삽입(PIN insertion), 케이블 라우팅, 링 스태킹 등 정밀한 양팔 조작 과제에서 80~96%의 성공률을 달성했다. 단순 행동 복제(MLP/Transformer) 대비 ACT가 일관되게 우수했으며, 행동 청킹과 CVAE가 각각 독립적으로 성능 향상에 기여함을 확인했다.

임팩트

ALOHA는 저비용 양팔 원격 조작과 효과적인 모방 학습의 조합으로 정밀 로봇 조작 연구의 접근성을 혁명적으로 높였다. 오픈소스 하드웨어 설계와 코드 공개로 전 세계 연구실에서 재현되었으며, Mobile ALOHA, ALOHA 2 등의 후속 연구와 상용화(Google DeepMind)로 이어졌다. 행동 청킹은 로봇 모방 학습의 표준 기법으로 자리잡았다.

관련 Foundation 논문

관련 논문