Proximal Policy Optimization Algorithms
근접 정책 최적화 알고리즘
John Schulman, Filip Wolski, Prafulla Dhariwal, et al. (2017)
클리핑된 대리 목적함수(clipped surrogate objective)를 사용하여 정책 경사(policy gradient) 업데이트의 안정성을 확보한 범용 강화학습 알고리즘으로, 구현이 간단하면서도 우수한 성능을 보여 사실상의 표준 RL 알고리즘이 되었다.
배경
정책 경사(policy gradient) 방법은 연속 행동 공간과 복잡한 환경에서 유연하게 적용 가능하지만, 업데이트 스텝 크기에 민감하여 너무 크면 성능이 급격히 저하되고 너무 작으면 학습이 느려지는 문제가 있었다. TRPO(Trust Region Policy Optimization)는 이를 KL 발산 제약으로 해결했지만, 구현이 복잡하고 2차 최적화가 필요하여 실용성이 떨어졌다.
핵심 아이디어
PPO는 TRPO의 핵심 아이디어인 '정책 업데이트 크기 제한'을 훨씬 간단한 방식으로 구현한다. 확률 비율(probability ratio) r(θ) = π_θ(a|s) / π_θ_old(a|s)을 계산한 후, 이를 [1-ε, 1+ε] 범위로 클리핑하여 목적함수에 사용한다. 이렇게 하면 정책이 한 번에 너무 크게 변하는 것을 방지하면서도 1차 최적화(SGD)만으로 학습이 가능하다. 클리핑은 어드밴티지가 양수일 때는 비율의 상한을, 음수일 때는 하한을 적용하여 과도한 업데이트를 양방향으로 억제한다. 추가적으로 여러 에폭에 걸쳐 동일한 데이터를 재사용할 수 있어 샘플 효율성도 개선된다.
방법론
병렬로 여러 환경을 실행하여 경험을 수집한 후, 수집된 데이터로 여러 에폭의 미니배치 SGD를 수행한다. 목적함수는 클리핑된 정책 목적, 가치 함수 손실, 엔트로피 보너스의 가중합으로 구성된다. GAE(Generalized Advantage Estimation)를 사용하여 어드밴티지를 추정하며, Actor-Critic 아키텍처에서 정책과 가치 함수가 네트워크 파라미터를 공유할 수 있다.
주요 결과
Atari 게임, MuJoCo 로보틱스 시뮬레이션 등 다양한 벤치마크에서 TRPO, A2C, CEM 등 기존 알고리즘과 동등하거나 우수한 성능을 보였다. 특히 구현의 단순성과 튜닝의 용이성에서 큰 장점을 보여, 복잡한 제약 조건 없이도 안정적인 학습이 가능함을 입증했다.
임팩트
PPO는 강화학습에서 사실상의 표준(de facto standard) 알고리즘이 되었다. OpenAI Five(도타2), 로보틱스, 그리고 특히 RLHF(Reinforcement Learning from Human Feedback)에서 LLM을 인간 선호도에 맞게 미세조정하는 핵심 알고리즘으로 채택되어 ChatGPT 등의 개발에 결정적 역할을 했다. 단순함과 범용성의 조합으로 학계와 산업계 모두에서 가장 널리 사용되는 RL 알고리즘이다.