VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models
VoxPoser: 언어 모델을 이용한 로봇 조작용 합성형 3D 가치 맵
Wenlong Huang, Chen Wang, Ruohan Zhang, et al. (2023)
LLM과 VLM(비전-언어 모델)을 활용하여 3D 가치 맵(value map)과 비용 맵(cost map)을 생성하고, 이를 기반으로 로봇이 추가 학습 없이 제로샷으로 다양한 조작 과제를 수행하는 프레임워크이다.
배경
LLM 기반 로봇 시스템은 대부분 사전 정의된 기술(skill) 세트에 의존하여 고수준 계획을 생성하지만, 새로운 과제에 필요한 저수준 동작을 자동으로 생성하는 것은 여전히 어려웠다. '부드럽게 물건을 놓아라', '장애물을 피하면서 움직여라'와 같은 세밀한 동작 제약을 기존 기술 라이브러리로는 표현하기 어렵다. 언어 지시를 로봇의 3D 작업 공간에서의 연속적인 동작으로 직접 변환하는 방법이 필요했다.
핵심 아이디어
VoxPoser는 LLM이 코드를 생성하여 3D 복셀(voxel) 공간에 어포던스 맵(affordance map)과 제약 맵(constraint map)을 작성하게 한다. LLM은 자연어 지시를 파싱하여 '어디로 이동해야 하는지'(어트랙터)와 '어디를 피해야 하는지'(리펠러)를 3D 공간에 배치하는 파이썬 코드를 생성한다. VLM(예: OWL-ViT)이 객체의 3D 위치를 감지하고, 이를 코드에서 참조하여 가치 맵을 구성한다. 생성된 가치 맵은 모션 플래너의 목적함수로 직접 사용되어, 모델 예측 제어(MPC)가 로봇의 연속 궤적을 생성한다.
방법론
GPT-4가 과제 지시를 입력받아, 복셀 공간에 가치를 할당하는 파이썬 코드를 생성한다. OWL-ViT와 깊이 카메라를 결합하여 객체의 3D 위치를 감지하고, 이를 코드에서 참조한다. 생성된 3D 가치 맵은 MPC(Model Predictive Control) 기반 모션 플래너의 비용 함수로 사용되며, 그리퍼의 개폐와 속도 조절도 LLM이 생성한 코드로 제어한다.
주요 결과
실제 로봇에서 학습 데이터 없이 다양한 과제(물건 집기, 서랍 열기, 장애물 회피, 부드럽게 놓기 등)를 제로샷으로 수행했다. 기존 SayCan, Code as Policies 등과 비교하여 더 세밀한 동작 제어가 가능했으며, 특히 '빠르게', '조심스럽게' 등의 부사적 수식어에도 반응하여 동작 특성을 조절할 수 있었다.
임팩트
VoxPoser는 LLM의 코드 생성 능력을 3D 공간 추론에 활용하여, 사전 학습된 기술 없이도 언어에서 저수준 로봇 동작을 직접 생성하는 새로운 접근법을 제시했다. 파운데이션 모델을 로봇의 연속 제어에 직접 연결하는 연구 흐름에서 중요한 진전을 이루었으며, 3D 가치 맵이라는 중간 표현의 효과성을 입증했다.