A Generalist Agent
범용 에이전트
Scott Reed, Konrad Żołna, Emilio Parisotto, et al. (2022)
하나의 Transformer 모델이 텍스트, 이미지, 연속 제어를 포함한 604개의 서로 다른 과제를 수행하는 범용 에이전트(generalist agent)로, 게임 플레이, 대화, 이미지 캡셔닝, 로봇 조작을 단일 가중치로 처리한다.
배경
AI 연구는 오랫동안 개별 과제별 전문가 모델을 개발하는 방향으로 진행되어 왔다. NLP에서 GPT-3가 다양한 언어 과제를 하나의 모델로 처리할 수 있음을 보여주었지만, 언어 너머 시각, 로봇 제어, 게임 등 다양한 모달리티와 행동 공간을 단일 모델로 통합하는 것은 시도되지 않았다. 과연 하나의 네트워크가 근본적으로 다른 유형의 과제들을 동시에 학습할 수 있는지가 핵심 질문이었다.
핵심 아이디어
Gato는 모든 유형의 데이터를 토큰 시퀀스로 통일하여, 하나의 자기회귀 Transformer가 모든 과제를 시퀀스 예측 문제로 처리하게 한다. 텍스트는 SentencePiece 토큰으로, 이미지는 패치 단위 임베딩으로, 연속 값(로봇 관절 각도, 게임 보상 등)은 1024개 구간으로 이산화하여 토큰으로 변환한다. 각 에피소드의 (관측, 행동, 보상) 시퀀스를 토큰 시퀀스로 인코딩하고, 동일한 네트워크가 다음 토큰(행동)을 예측한다. 과제별 프롬프트나 조건화 없이, 순수하게 시퀀스 컨텍스트에서 과제를 추론한다.
방법론
1.2B 파라미터의 Transformer 디코더를 사용하며, 604개 과제의 데이터를 혼합하여 학습한다. 과제 유형별로 별도의 토크나이저를 사용하되, 임베딩 이후에는 동일한 Transformer를 공유한다. 학습 데이터에는 Atari 게임, DM Control Suite, 실제 로봇 조작(시뮬레이션 및 실제), 이미지 캡셔닝, 대화 등이 포함된다. 컨텍스트 길이는 1024 토큰으로 제한한다.
주요 결과
604개 과제 중 450개 이상에서 전문가 에이전트의 50% 이상 성능을 달성했다. Atari 게임에서는 인간 수준 이상의 게임이 다수 있었으며, 실제 로봇 블록 쌓기에서도 작동했다. 대화와 이미지 캡셔닝에서는 합리적인 품질을 보였으나, 전문가 모델에는 미치지 못했다.
임팩트
Gato는 '하나의 모델이 모든 것을 할 수 있다'는 범용 에이전트(generalist agent)의 비전을 최초로 대규모로 실증했다. 비록 개별 과제에서 전문가 모델에 미치지 못하는 경우가 많았지만, 스케일링에 따른 성능 향상 가능성을 시사했다. Decision Transformer, RT-2 등 시퀀스 모델링 기반 의사결정 연구와 맥을 같이하며, 멀티모달 범용 에이전트 연구의 중요한 이정표가 되었다.