Nature 2020Citations: 3,000+

Mastering Atari, Go, Chess and Shogi by Planning with a Learned Model

학습된 모델로 계획하여 Atari, 바둑, 체스, 장기 마스터하기

Julian Schrittwieser, Ioannis Antonoglou, Thomas Hubert, et al. (2019)

환경의 규칙을 전혀 모른 채 내부 역학 모델을 학습하여 계획(planning)을 수행함으로써, 바둑, 체스, 쇼기, Atari 게임 등 다양한 도메인에서 초인적 성능을 달성한 범용 모델 기반 강화학습 알고리즘이다.

배경

AlphaZero는 바둑, 체스, 쇼기에서 초인적 성능을 보였지만, 완벽한 환경 시뮬레이터(게임 규칙)가 필요하다는 제약이 있었다. 반면 모델 없이 학습하는 DQN 같은 알고리즘은 Atari를 풀 수 있지만, 계획(planning) 능력이 부족하여 성능의 한계가 있었다. 환경 모델을 직접 학습하는 기존 모델 기반 RL은 픽셀 수준의 예측이 어려워 복잡한 환경에서 잘 작동하지 않았다.

핵심 아이디어

MuZero의 핵심 통찰은 환경의 모든 것을 재현할 필요 없이, 계획에 필요한 정보만 예측하면 된다는 것이다. 세 가지 학습된 함수를 사용한다: (1) 표현 함수(representation function)가 관측을 숨겨진 상태(hidden state)로 인코딩하고, (2) 역학 함수(dynamics function)가 현재 상태와 행동으로부터 다음 상태와 즉시 보상을 예측하며, (3) 예측 함수(prediction function)가 상태로부터 정책과 가치를 출력한다. 이 학습된 모델 위에서 MCTS를 수행하여 행동을 선택한다. 중요한 점은 숨겨진 상태 공간이 관측 공간을 재구성하도록 학습되는 것이 아니라, 미래의 보상, 가치, 정책을 정확히 예측하도록 엔드투엔드로 학습된다는 것이다.

방법론

학습 시 실제 환경과의 상호작용으로 얻은 궤적(trajectory)을 저장하고, 각 타임스텝에서 학습된 모델로 K 스텝의 가상 롤아웃을 수행한다. 각 롤아웃 스텝에서 예측된 보상, 가치, 정책을 실제 관측된 보상, MCTS로 개선된 정책, 부트스트래핑된 가치와 매칭하도록 학습한다. 추론 시에는 현재 관측을 숨겨진 상태로 인코딩한 후 학습된 모델 위에서 MCTS를 실행하여 행동을 결정한다.

주요 결과

바둑, 체스, 쇼기에서 AlphaZero와 동등한 초인적 성능을 달성하면서도 게임 규칙을 전혀 사용하지 않았다. Atari 57개 게임에서는 기존 모델 프리 SOTA를 큰 폭으로 상회했다. 단일 알고리즘으로 완전 정보 보드게임과 시각적 비디오 게임을 동시에 마스터한 최초의 사례이다.

임팩트

MuZero는 모델 기반 강화학습의 새로운 패러다임을 제시하여, 환경 규칙 없이도 효과적인 계획이 가능함을 증명했다. 이는 로봇 제어, 비디오 압축, 핵융합 플라즈마 제어 등 실제 환경 모델을 정확히 알 수 없는 현실 세계 문제에 적용 가능성을 열었다. 세계 모델(World Models) 연구와 맥을 같이하며, 학습된 시뮬레이터 기반 의사결정의 가능성을 확장했다.

관련 Foundation 논문

관련 논문