NatureCitations: 18,000+

Mastering the game of Go with deep neural networks and tree search

심층 신경망과 트리 탐색으로 바둑 마스터하기

David Silver, Aja Huang, Chris J. Maddison, et al. (2016)

딥 뉴럴 네트워크(정책 네트워크 + 가치 네트워크)와 몬테카를로 트리 탐색(MCTS)을 결합하여 바둑에서 인간 세계 챔피언을 최초로 이긴 AI 시스템이다.

배경

바둑은 약 10^170에 달하는 거대한 상태 공간과 복잡한 전략적 깊이로 인해 전통적인 게임 AI 기법으로는 정복이 불가능하다고 여겨졌다. 체스와 달리 간단한 평가 함수를 설계하기 어렵고, 브루트포스 탐색만으로는 의미 있는 수를 찾을 수 없었다. 수십 년간 AI 연구자들의 도전에도 바둑은 아마추어 수준에 머물러 있었다.

핵심 아이디어

AlphaGo는 세 가지 핵심 구성요소를 결합한다. 정책 네트워크(Policy Network)는 프로 기사의 기보로 지도학습한 후 자기 대전(self-play)으로 강화학습하여 유망한 수를 예측한다. 가치 네트워크(Value Network)는 현재 국면의 승률을 평가한다. 이 두 네트워크를 MCTS와 결합하여, 정책 네트워크가 탐색 트리의 가지를 선택적으로 확장하고 가치 네트워크가 리프 노드를 평가함으로써 효율적인 탐색을 수행한다. 자기 대전 강화학습을 통해 인간 기보를 넘어서는 수준으로 발전할 수 있었다.

방법론

13층 CNN 기반의 정책 네트워크를 약 3천만 개의 프로 기보 포지션으로 지도학습한 후, 이전 버전의 자기 자신과 대전하는 REINFORCE 알고리즘으로 강화학습한다. 가치 네트워크는 자기 대전에서 생성된 포지션-결과 쌍으로 학습한다. MCTS에서 각 시뮬레이션은 정책 네트워크의 사전 확률로 가이드되며, 리프 노드는 가치 네트워크 평가와 빠른 롤아웃 정책의 결과를 혼합하여 평가한다.

주요 결과

2015년 10월, 유럽 챔피언 판 후이를 5:0으로 이겼으며, 2016년 3월에는 전설적인 바둑 기사 이세돌을 4:1로 이기며 역사적인 순간을 만들었다. 분산 버전의 AlphaGo는 1,202개의 CPU와 176개의 GPU를 사용하여 탐색을 수행했다.

임팩트

AlphaGo는 AI가 인간의 직관과 전략적 사고가 필요한 영역에서도 초인적 성능을 달성할 수 있음을 보여주었다. 이 성과는 전 세계적으로 AI에 대한 관심을 폭발적으로 증가시켰으며, 후속작인 AlphaGo Zero, AlphaZero, MuZero로 이어지며 자기 대전 학습과 범용 게임 AI 연구의 새로운 패러다임을 열었다. 과학적 발견과 최적화 문제에도 유사한 접근법이 적용되는 계기가 되었다.

관련 Foundation 논문

관련 논문