Large Batch Training of Convolutional Networks
합성곱 네트워크의 대규모 배치 학습
Yang You, Igor Gitman, Boris Ginsburg (2017)
레이어별 가중치 노름과 그래디언트 노름의 비율을 활용하여 각 레이어에 적응적 학습률을 부여하는 LARS(Layer-wise Adaptive Rate Scaling) 알고리즘을 제안하여, 대규모 배치(최대 32K)에서도 정확도 손실 없이 안정적으로 합성곱 네트워크를 학습할 수 있게 했다.
배경
분산 학습에서 배치 크기를 키우면 학습 속도가 비례적으로 빨라지지만, 큰 배치 크기는 학습 불안정과 일반화 성능 저하를 초래하는 것으로 알려져 있었다. 선형 스케일링 규칙(learning rate를 배치 크기에 비례하여 증가)과 웜업 전략이 부분적으로 도움이 되었지만, 매우 큰 배치(8K 이상)에서는 여전히 정확도가 크게 떨어졌다. 특히 서로 다른 레이어의 가중치와 그래디언트의 스케일이 크게 다를 수 있어, 단일 글로벌 학습률로는 모든 레이어를 적절히 업데이트하기 어려웠다.
핵심 아이디어
LARS의 핵심 통찰은 신경망의 각 레이어에서 가중치 노름(||w||)과 그래디언트 노름(||∇w||)의 비율이 레이어마다 크게 다르다는 관찰이다. 어떤 레이어에서는 이 비율이 매우 크고 다른 레이어에서는 작아, 동일한 학습률이 어떤 레이어에서는 과도하게 크고 다른 레이어에서는 불충분할 수 있다. LARS는 각 레이어의 '지역 학습률(local learning rate)'을 η_l = η × ||w_l|| / (||∇w_l|| + β||w_l||)로 정의하여, 가중치 업데이트의 크기가 가중치 자체의 크기에 비례하도록 정규화한다(β는 가중치 감쇠 계수). 이를 통해 모든 레이어에서 균일한 상대적 업데이트 크기를 보장한다.
방법론
기본 SGD에 레이어별 적응적 스케일링을 추가한다. 각 학습 스텝에서 모든 레이어 l에 대해 지역 학습률 λ_l = η_l × γ(γ는 글로벌 학습률)을 계산하고, 가중치 업데이트에 적용한다. 모멘텀 SGD와 결합하여 사용하며, 학습 초반에는 점진적 웜업(gradual warmup)을 적용한다. 웜업 후에는 다항 감쇠(polynomial decay) 학습률 스케줄을 사용한다.
주요 결과
AlexNet에서 배치 크기 8K까지 정확도 손실 없이 학습에 성공했으며, 기존 방법은 배치 크기 2K 이상에서 정확도가 급격히 떨어졌다. ResNet-50에서 배치 크기 32K(256 GPU)로 학습하여 기준 정확도(배치 256)와 동등한 성능을 달성했다. 학습 시간은 배치 크기 증가에 거의 선형적으로 감소하여, ResNet-50의 학습 시간을 수 시간 이내로 단축했다.
임팩트
LARS는 대규모 배치 분산 학습의 핵심 기법으로 자리잡았으며, 레이어별 적응적 학습률이라는 개념은 후속 최적화 연구에 큰 영향을 미쳤다. 특히 LAMB(LARS의 Adam 버전) 옵티마이저로 발전하여 BERT 학습에 적용되었으며, 대규모 모델 사전학습의 효율화에 기여했다. 이 연구는 '큰 배치 = 나쁜 일반화'라는 통념을 깨고, 적절한 최적화 기법으로 대규모 배치 학습이 가능함을 보여주었다.