CoRL 2022Citations: 600+

Inner Monologue: Embodied Reasoning through Planning with Language Models

내면 독백: 언어 모델을 이용한 체화된 추론과 계획

Wenlong Huang, Fei Xia, Ted Xiao, et al. (2022)

LLM의 내적 독백(inner monologue)을 통해 로봇이 환경 피드백(성공/실패 감지, 객체 인식, 장면 설명)을 텍스트로 받아 재계획하며 체화된 추론(embodied reasoning)을 수행하는 프레임워크이다.

배경

SayCan 등의 LLM 기반 로봇 계획 시스템은 초기 계획을 생성한 후 실행하지만, 실행 중 발생하는 오류나 환경 변화에 대응하는 폐루프(closed-loop) 추론이 부족했다. 로봇이 실제 환경에서 동작할 때, 행동이 실패하거나 예상치 못한 상황이 발생하면 계획을 수정해야 하지만, 기존 시스템은 환경 피드백을 LLM에 전달하는 체계적 방법이 없었다.

핵심 아이디어

Inner Monologue는 로봇 실행 과정에서 다양한 환경 피드백 소스의 출력을 텍스트 형태로 LLM의 프롬프트에 지속적으로 주입하여, LLM이 '내적 독백'처럼 상황을 파악하고 계획을 동적으로 수정하게 한다. 피드백 소스는 세 가지로 구성된다: (1) 성공 감지기(행동의 성공/실패 판별), (2) 수동적 장면 묘사(로봇이 현재 보는 것에 대한 텍스트 설명), (3) 능동적 장면 묘사(특정 물체의 존재 여부 등에 대한 질의응답). 이러한 피드백이 텍스트로 변환되어 LLM의 대화 이력에 추가되면, LLM은 자연스럽게 맥락을 이해하고 다음 행동을 조정한다.

방법론

사전학습된 LLM(PaLM)을 고수준 계획기로 사용하고, SayCan의 어포던스 기반 기술 선택을 저수준 실행기로 활용한다. 행동 실행 후 성공 감지기, 객체 감지기, 장면 설명 모델(VLM)의 출력을 텍스트화하여 LLM 프롬프트에 추가한다. 실제 로봇(Everyday Robots)과 시뮬레이션 환경(tabletop, kitchen) 모두에서 실험한다.

주요 결과

실제 로봇 환경에서 피드백이 없는 개루프 계획 대비, Inner Monologue는 과제 성공률을 크게 향상시켰다. 특히 행동 실패 복구, 환경 변화 대응, 사용자의 실시간 지시 변경 등 동적 상황에서 효과가 뚜렷했다. 인간이 의도적으로 방해(물체 치우기 등)한 상황에서도 LLM이 피드백을 통해 대안 행동을 생성할 수 있었다.

임팩트

Inner Monologue는 LLM 기반 로봇 시스템에서 폐루프 추론의 중요성을 확립하여, 이후 Voyager, Code as Policies, PROGPROMPT 등 환경 피드백을 활용하는 LLM-로봇 연구에 직접적 영향을 미쳤다. 다양한 감각 피드백을 텍스트로 통일하여 LLM에 전달한다는 아이디어는 멀티모달 에이전트 설계의 핵심 원칙으로 자리잡았다.

관련 Foundation 논문

관련 논문