NeurIPS 2013 WorkshopCitations: 15,000+

Playing Atari with Deep Reinforcement Learning

심층 강화학습으로 Atari 게임하기

Volodymyr Mnih, Kavukcuoglu, Silver, et al. (2013)

딥 뉴럴 네트워크와 경험 리플레이를 결합한 Deep Q-Network(DQN)을 제안하여, 에이전트가 원시 픽셀 입력만으로 Atari 게임에서 인간 수준의 성능을 달성한 최초의 딥 강화학습 알고리즘이다.

배경

기존 강화학습은 상태 공간이 크거나 고차원 입력(예: 이미지)을 다루는 데 한계가 있었다. 비선형 함수 근사기인 딥 뉴럴 네트워크를 Q-learning에 직접 적용하면 학습이 불안정해지는 문제가 잘 알려져 있었다. 이러한 불안정성을 해결하고 고차원 감각 입력에서 직접 정책을 학습하는 것이 핵심 과제였다.

핵심 아이디어

DQN은 CNN을 함수 근사기로 사용하여 Q-value를 추정하며, 두 가지 핵심 기법으로 학습 안정성을 확보한다. 첫째, 경험 리플레이(Experience Replay)를 통해 과거 전이(transition)를 버퍼에 저장하고 무작위로 샘플링하여 데이터 간 상관관계를 깨뜨린다. 둘째, 타겟 네트워크(Target Network)를 별도로 유지하여 일정 주기마다 업데이트함으로써 학습 타겟의 변동을 줄인다. 이 두 기법의 조합으로 딥 뉴럴 네트워크를 사용한 Q-learning이 안정적으로 수렴할 수 있게 되었다. 하나의 동일한 아키텍처와 하이퍼파라미터로 49개의 서로 다른 Atari 게임을 학습할 수 있다는 점에서 범용성을 입증했다.

방법론

에이전트는 4프레임의 스택된 그레이스케일 이미지를 입력으로 받아 3개의 컨볼루션 레이어와 2개의 완전연결 레이어를 거쳐 각 행동의 Q-value를 출력한다. 100만 개의 전이를 저장하는 리플레이 버퍼에서 미니배치를 샘플링하여 학습하며, 타겟 네트워크는 매 10,000 스텝마다 동기화된다. 탐험을 위해 epsilon-greedy 전략을 사용하여 epsilon을 점진적으로 감소시킨다.

주요 결과

49개 Atari 게임 중 과반수에서 기존 최고 성능을 크게 상회했으며, 여러 게임에서 인간 전문가 수준의 성능을 달성했다. 동일한 네트워크 구조, 학습 알고리즘, 하이퍼파라미터를 모든 게임에 적용하여 범용적 학습 능력을 보여주었다.

임팩트

DQN은 딥러닝과 강화학습의 결합이 실제로 가능하다는 것을 증명하며 딥 강화학습(Deep RL) 분야를 본격적으로 개척했다. 이후 Double DQN, Dueling DQN, Rainbow 등 수많은 후속 연구의 기반이 되었으며, AlphaGo를 비롯한 게임 AI와 PPO 같은 정책 기반 알고리즘 발전에도 직접적인 영향을 미쳤다. Nature(2015)에 발표되어 AI 연구의 새로운 시대를 열었다.

관련 Foundation 논문

관련 논문