ICLR 2019Citations: 10,000+

Decoupled Weight Decay Regularization

분리된 가중치 감쇠 정규화

Ilya Loshchilov, Frank Hutter (2017)

Adam 옵티마이저에서 가중치 감쇠(weight decay)와 L2 정규화의 등가성이 깨지는 문제를 규명하고, 이를 분리(decoupled)하여 AdamW를 제안한 논문.

배경

SGD에서는 가중치 감쇠와 L2 정규화가 수학적으로 동치이지만, Adam과 같은 적응적 학습률 옵티마이저에서는 그렇지 않다. 기존 구현들은 이 둘을 혼용하여 최적이 아닌 정규화 효과를 초래했으며, 이로 인해 Adam이 SGD+모멘텀 대비 일반화 성능이 떨어진다는 인식이 있었다.

핵심 아이디어

Adam에서 L2 정규화 항은 그래디언트에 추가된 뒤 적응적 학습률로 스케일링되므로, 파라미터마다 감쇠 강도가 달라져 의도한 정규화 효과를 왜곡한다. AdamW는 가중치 감쇠를 그래디언트 업데이트와 완전히 분리하여, 학습률 스케줄에 관계없이 일정한 비율로 가중치를 줄인다. 추가로 학습률 워밍업 스케줄과의 분리(decoupled)도 제안하여 하이퍼파라미터 탐색 공간을 단순화했다.

방법론

Adam 업데이트 규칙에서 L2 페널티를 그래디언트 계산에 포함시키는 대신, 파라미터 업데이트 이후 별도로 가중치 감쇠를 적용한다. 이를 CIFAR-10과 ImageNet-32x32에서 SGD+모멘텀, 기존 Adam과 비교 실험했다.

주요 결과

AdamW는 기존 Adam 대비 일반화 성능이 크게 향상되어 SGD+모멘텀과 동등하거나 더 나은 결과를 보였다. 학습률과 가중치 감쇠를 독립적으로 튜닝할 수 있어 하이퍼파라미터 탐색이 효율적이 되었다.

임팩트

사실상 모든 현대 트랜스포머 훈련의 기본 옵티마이저가 되었다. BERT, GPT 시리즈, ViT 등 거의 모든 대규모 모델 훈련에 AdamW가 채택되었으며, 적응적 옵티마이저의 정규화에 대한 이해를 근본적으로 바꾸었다.

관련 Foundation 논문

관련 논문