Mobile ALOHA: Learning Bimanual Mobile Manipulation with Low-Cost Whole-Body Teleoperation
Mobile ALOHA: 저비용 전신 원격조작을 이용한 양손 이동 조작 학습
Zipeng Fu, Tony Z. Zhao, Chelsea Finn (2024)
ALOHA 양팔 시스템에 이동 가능한 베이스를 결합하고, 기존 정적 ALOHA 데이터와의 공동 학습(co-training)을 통해 소수의 시연만으로 전신 이동 조작 과제를 학습할 수 있는 모바일 양팔 로봇 시스템이다.
배경
ALOHA는 정밀한 양팔 조작에서 뛰어난 성과를 보였지만, 고정된 베이스로 인해 작업 범위가 제한적이었다. 실제 가정과 사무 환경에서는 방 사이를 이동하면서 물건을 나르거나, 걸어가서 서랍을 열고 물건을 꺼내는 등 이동과 조작이 결합된 과제가 대부분이다. 그러나 모바일 조작은 이동과 양팔 조작을 동시에 제어해야 하므로 행동 공간이 크고, 충분한 시연 데이터 수집이 어렵다는 과제가 있었다.
핵심 아이디어
Mobile ALOHA의 핵심 기여는 두 가지이다. 첫째, 하드웨어 측면에서 ALOHA 양팔 시스템을 AgileX 이동 베이스 위에 장착하고, 인간이 베이스를 밀면서 양팔을 원격 조작하는 전신 시연 수집 시스템을 구축했다. 둘째, 그리고 더 중요한 알고리즘 기여로, 소수(약 50회)의 모바일 시연만으로는 학습이 어려운 문제를 기존 정적 ALOHA 데이터(수백~수천 에피소드)와의 공동 학습(co-training)으로 해결한다. 정적 데이터가 양팔 조작의 기본 능력을 제공하면, 소수의 모바일 데이터로부터 이동 + 조작의 통합 정책을 효과적으로 학습할 수 있다.
방법론
베이스의 선속도와 각속도(2차원)를 양팔 관절(14차원)에 추가하여 총 16차원의 행동 공간을 구성한다. ACT(Action Chunking with Transformers)를 정책 아키텍처로 사용하며, 정적 ALOHA 데이터셋과 모바일 데이터셋을 50:50 비율로 혼합하여 학습한다. 정적 데이터의 베이스 행동은 0으로 패딩한다.
주요 결과
5가지 모바일 조작 과제(캐비닛에서 냄비 꺼내기, 전자레인지 사용하기, 엘리베이터 타기 등)에서 공동 학습이 과제당 50회 시연만으로 평균 80% 이상의 성공률을 달성했다. 공동 학습 없이 모바일 데이터만으로 학습하면 성공률이 크게 하락(20~50%p)하여, 공동 학습의 효과가 뚜렷했다.
임팩트
Mobile ALOHA는 이동 가능한 양팔 로봇이 가정 환경의 복잡한 과제를 수행할 수 있음을 실증하여 큰 대중적 관심을 받았다(요리, 청소 시연 영상이 바이럴). 공동 학습이라는 간단하면서도 효과적인 기법은 데이터 부족 문제를 해결하는 범용적 접근법으로 인정받았으며, 구글 DeepMind의 ALOHA 2 상용화와 다수의 후속 연구에 영향을 미쳤다.