Grandmaster level in StarCraft II using multi-agent reinforcement learning
다중 에이전트 강화학습을 이용한 스타크래프트 II 그랜드마스터 달성
Oriol Vinyals, Igor Babuschkin, et al. (2019)
다중 에이전트 강화학습과 리그 훈련(league training)을 통해 실시간 전략 게임 StarCraft II에서 인간 그랜드마스터 수준에 도달한 최초의 AI 시스템이다.
배경
StarCraft II는 불완전 정보, 거대한 행동 공간(~10^26 가능 행동), 장기 전략 수립, 실시간 의사결정이 요구되는 극도로 복잡한 게임으로, 바둑보다 훨씬 더 도전적인 AI 벤치마크로 여겨졌다. 불완전 정보로 인한 게임 이론적 복잡성, 다양한 전략 간의 비이행적(non-transitive) 관계(가위바위보와 유사), 그리고 수만 프레임에 걸친 장기 계획의 필요성이 핵심 난제였다.
핵심 아이디어
AlphaStar의 핵심 혁신은 리그 훈련(league training) 시스템이다. 단순한 자기 대전은 전략 간 순환적 우열 관계 때문에 특정 전략에 과적합될 수 있다. 리그 훈련은 메인 에이전트(main agent), 메인 익스플로이터(main exploiter), 리그 익스플로이터(league exploiter) 세 유형의 에이전트를 동시에 훈련한다. 메인 에이전트는 범용 전략을, 메인 익스플로이터는 메인 에이전트의 약점을, 리그 익스플로이터는 리그 전체의 약점을 공략한다. 과거 에이전트들의 스냅샷을 리그에 보존하여 전략적 다양성을 유지하며, 게임 이론의 내시 균형에 근접하도록 설계되었다.
방법론
Transformer와 LSTM을 결합한 딥 뉴럴 네트워크가 미니맵, 유닛 정보, 스칼라 특성을 입력으로 받아 자기회귀적으로 행동을 생성한다. 지도학습으로 인간 리플레이에서 초기화한 후 리그 훈련으로 강화학습한다. 각 에이전트는 16개의 TPU v3로 44일간 훈련되며, 총 약 200년 분량의 게임 경험을 소화한다. 포인터 네트워크로 유닛 선택을 처리하고, 스칼라 값과 임베딩의 조합으로 복잡한 행동 공간을 표현한다.
주요 결과
Battle.net 래더에서 세 종족(프로토스, 테란, 저그) 모두에서 그랜드마스터(상위 0.2%) 수준에 도달했다. 프로 게이머 Serral과 TLO를 상대로 10-1로 승리했으며, MaNa를 상대로도 5-0으로 승리했다. 인간과 동일한 APM(분당 행동 수) 제한과 카메라 제약 하에서도 이 성과를 달성했다.
임팩트
AlphaStar는 불완전 정보의 복잡한 다중 에이전트 환경에서 AI가 인간 최고 수준에 도달할 수 있음을 증명했다. 리그 훈련은 다중 에이전트 학습에서 전략적 다양성을 유지하는 효과적 방법론으로 확립되었으며, 이후 OpenAI Five(도타2), Cicero(디플로매시) 등 게임 AI 연구에 영향을 미쳤다. 실시간 의사결정과 장기 전략이 동시에 필요한 현실 세계 문제에 대한 적용 가능성도 시사했다.