Asynchronous Methods for Deep Reinforcement Learning
딥 강화학습을 위한 비동기 방법
Volodymyr Mnih, Adrià Puigdomènech Badia, et al. (2016)
여러 개의 병렬 액터가 각각 독립적인 환경에서 비동기적으로 경험을 수집하고, 공유 글로벌 네트워크에 그래디언트를 전달하는 Asynchronous Advantage Actor-Critic(A3C) 알고리즘으로, 경험 리플레이 버퍼 없이도 안정적이고 효율적인 강화학습을 달성했다.
배경
DQN은 경험 리플레이 버퍼를 통해 데이터 간 상관관계를 깨뜨려 안정적인 학습을 가능하게 했지만, 대용량 메모리와 오프폴리시 학습이 필수적이었다. 또한 단일 에이전트가 순차적으로 환경과 상호작용하므로 학습 속도에 한계가 있었다. 온폴리시 방법은 데이터 효율이 낮고, 오프폴리시 방법은 리플레이 버퍼의 메모리 부담이 컸다.
핵심 아이디어
A3C의 핵심 통찰은 여러 액터-러너(actor-learner)를 병렬로 실행하면 각 액터가 서로 다른 상태를 탐험하므로 데이터 간 상관관계가 자연스럽게 깨진다는 것이다. 따라서 경험 리플레이 버퍼가 불필요해진다. 각 액터는 글로벌 네트워크의 파라미터를 복사하여 n-스텝 동안 환경과 상호작용한 후, 어드밴티지 함수 A(s,a) = R - V(s)를 기반으로 정책 그래디언트와 가치 함수 그래디언트를 계산하여 비동기적으로 글로벌 네트워크를 업데이트한다. 엔트로피 정규화 항을 추가하여 조기 수렴을 방지하고 탐험을 촉진한다.
방법론
CPU 멀티스레딩을 활용하여 16개의 액터를 병렬로 실행한다. 각 스레드는 글로벌 네트워크의 사본으로 최대 t_max 스텝의 경험을 수집하고, n-스텝 리턴으로 어드밴티지를 추정하여 비동기적으로 글로벌 파라미터를 갱신한다. 정책과 가치 함수가 파라미터를 공유하는 Actor-Critic 구조를 사용하며, LSTM 레이어를 추가하여 부분 관측 문제에도 대응한다.
주요 결과
Atari 게임에서 GPU 없이 멀티코어 CPU만으로 DQN의 절반 시간에 동등하거나 우수한 성능을 달성했다. 연속 행동 공간(MuJoCo), 미로 탐색(TORCS) 등 다양한 도메인에서 효과적으로 작동했으며, 학습 시간이 액터 수에 거의 선형적으로 감소함을 보였다.
임팩트
A3C는 병렬 환경 실행을 통한 분산 강화학습의 패러다임을 확립했다. 경험 리플레이 없는 온폴리시 학습이 가능함을 보여줌으로써, 이후 PPO, IMPALA, Ape-X 등 대규모 분산 RL 알고리즘의 기반이 되었다. 특히 GPU가 아닌 CPU만으로 효율적인 학습이 가능하다는 점에서 강화학습의 접근성을 크게 높였다.