Do As I Can, Not As I Say: Grounding Language in Robotic Affordances
내가 하는 대로 해, 말하는 대로가 아니라: 로봇 어포던스에서의 언어 접지
Michael Ahn, Anthony Brohan, Noah Brown, et al. (2022)
대규모 언어 모델(LLM)의 세계 지식과 로봇의 어포던스(affordance) 점수를 결합하여, 자연어 지시를 물리적으로 실행 가능한 로봇 행동 계획으로 변환하는 프레임워크이다.
배경
대규모 언어 모델은 방대한 세계 지식과 상식적 추론 능력을 갖추고 있지만, 물리적 세계에 대한 접지(grounding)가 부족하여 '냉장고에서 음료를 가져와'라는 지시에 대해 논리적이지만 물리적으로 불가능한 계획을 생성할 수 있다. 반면 로봇 학습은 개별 기술(skill)을 잘 수행하지만, 복잡한 장기 과제를 위한 고수준 계획 능력이 부족했다.
핵심 아이디어
SayCan은 LLM이 '할 수 있다고 말하는 것(Say)'이 아닌 '실제로 할 수 있는 것(Can)'에 기반하여 행동을 선택한다. 각 단계에서 LLM은 현재까지의 맥락을 고려하여 가능한 기술(skill)들의 유용성 점수를 생성하고, 별도의 어포던스 모델(각 기술의 성공 확률을 추정하는 가치 함수)이 물리적 실행 가능성 점수를 제공한다. 두 점수를 곱하여 가장 높은 점수의 기술을 선택하고 실행한 뒤, 결과를 피드백하여 다음 단계를 반복한다. 이를 통해 LLM의 추상적 계획 능력과 로봇의 물리적 제약을 자연스럽게 통합한다.
방법론
사전학습된 LLM(PaLM, FLAN 등)을 사용하여 각 기술에 대한 언어 점수를 계산하고, 강화학습으로 학습된 551개의 기본 기술 정책과 해당 가치 함수를 어포던스 모델로 활용한다. 실제 주방 환경의 모바일 매니퓰레이터 로봇에서 실험하며, 기술 실행 후 성공/실패 판정에는 학습된 분류기를 사용한다.
주요 결과
101개의 실제 로봇 과제에서 SayCan은 계획 정확도 84%를 달성했으며, 이는 LLM만 사용한 경우(14%)나 어포던스만 사용한 경우(13%)를 크게 상회한다. '음료를 쏟았어, 도와줘' 같은 추상적이고 개방적인 지시도 적절한 행동 시퀀스(스펀지 가져오기 → 닦기 → 스펀지 치우기)로 변환할 수 있었다.
임팩트
SayCan은 파운데이션 모델을 로봇 제어에 활용하는 새로운 패러다임을 열어, 이후 RT-2, PaLM-E, Code as Policies 등 LLM 기반 로봇 연구의 물결을 촉발했다. LLM의 언어적 추론과 물리적 실행 가능성을 분리하여 결합하는 프레임워크는 구체화된 AI(Embodied AI) 연구의 핵심 참조점이 되었다.