ICML 2018Citations: 8,000+

Soft Actor-Critic: Off-Policy Maximum Entropy Deep Reinforcement Learning with a Stochastic Actor

소프트 액터-크리틱: 확률적 액터를 이용한 오프폴리시 최대 엔트로피 딥 강화학습

Tuomas Haarnoja, Aurick Zhou, Pieter Abbeel, Sergey Levine (2018)

정책의 엔트로피를 보상에 포함시키는 최대 엔트로피(maximum entropy) 프레임워크 기반의 오프폴리시 액터-크리틱 알고리즘으로, 확률적 정책과 자동 온도 조절을 통해 연속 행동 공간에서 안정적이고 샘플 효율적인 학습을 달성했다.

배경

연속 행동 공간의 강화학습에서 기존 온폴리시 방법(PPO, A3C)은 샘플 효율이 낮고, 오프폴리시 방법(DDPG, TD3)은 결정적 정책을 사용하여 탐험이 부족하고 하이퍼파라미터에 민감했다. 특히 결정적 정책은 다봉(multimodal) 행동 분포를 표현하지 못하고, 수동으로 탐험 노이즈를 추가해야 하는 한계가 있었다. 안정성과 샘플 효율을 동시에 달성하면서도 탐험-활용 균형을 자동으로 관리하는 알고리즘이 필요했다.

핵심 아이디어

SAC(Soft Actor-Critic)는 기대 보상뿐 아니라 정책의 엔트로피도 함께 최대화하는 최대 엔트로피 강화학습 프레임워크를 기반으로 한다. 목적함수는 J(π) = Σ E[r(s,a) + αH(π(·|s))]로, α가 보상과 엔트로피의 균형을 조절하는 온도 파라미터이다. 확률적 정책(가우시안)을 사용하여 자연스러운 탐험이 이루어지며, 리파라미터화 트릭으로 정책 그래디언트를 효율적으로 계산한다. 핵심 기여 중 하나인 자동 온도 조절은 목표 엔트로피를 설정하면 α가 자동으로 조정되어, 도메인별 수동 튜닝을 제거한다.

방법론

두 개의 Q-네트워크(Double Q)와 하나의 정책 네트워크, 그리고 학습 가능한 온도 파라미터 α를 사용한다. 리플레이 버퍼에서 미니배치를 샘플링하여 소프트 벨만 방정식에 기반한 Q-함수 손실, 정책 네트워크의 KL 발산 최소화 손실, 그리고 α의 제약 최적화 손실을 동시에 업데이트한다. 타겟 네트워크는 지수 이동 평균으로 소프트 업데이트한다.

주요 결과

MuJoCo 벤치마크(HalfCheetah, Ant, Humanoid 등)에서 DDPG, TD3, PPO를 포함한 기존 모든 알고리즘을 일관되게 상회했다. 특히 복잡한 보행 과제(Humanoid)에서 기존 방법 대비 월등한 성능을 보였으며, 하이퍼파라미터 민감도가 크게 낮아 다양한 도메인에서 동일한 설정으로 잘 작동했다.

임팩트

SAC는 연속 제어 영역에서 사실상의 표준 알고리즘이 되어, 로보틱스 시뮬레이션 및 실제 로봇 학습에서 가장 널리 사용되는 방법 중 하나가 되었다. 최대 엔트로피 프레임워크는 탐험-활용 트레이드오프를 원칙적으로 해결하는 이론적 기반을 제공했으며, 이후 offline RL과 Decision Transformer 등 시퀀스 기반 RL 연구에도 영향을 미쳤다.

관련 Foundation 논문

관련 논문