EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks
EfficientNet: 합성곱 신경망의 모델 스케일링 재고
Mingxing Tan, Quoc V. Le (2019)
네트워크의 깊이, 너비, 입력 해상도를 복합적으로 균형 있게 스케일링하는 원칙을 제시하고, NAS로 찾은 기본 모델을 체계적으로 확장하여 기존 CNN 대비 훨씬 적은 파라미터로 최고 성능을 달성한 모델이다.
배경
CNN 성능을 높이기 위해 네트워크를 깊게(ResNet), 넓게(WideResNet), 또는 높은 해상도의 입력을 사용하는 방법이 각각 연구되었지만, 이 세 차원을 어떻게 균형 있게 조합해야 최적인지에 대한 체계적 이해가 부족했다. 대부분의 모델은 이 중 하나의 차원만 임의로 확장하여 효율성이 떨어졌으며, 제한된 계산 자원 내에서 최적의 모델 구조를 찾는 것이 중요한 과제였다.
핵심 아이디어
EfficientNet은 네트워크 스케일링에 대한 핵심적 관찰을 제시한다: 깊이(depth), 너비(width), 해상도(resolution)의 세 차원은 서로 밀접하게 연관되어 있으며, 하나만 확장하면 빠르게 수익이 체감한다. 복합 스케일링(compound scaling) 방법은 하나의 복합 계수 φ를 사용하여 세 차원을 고정된 비율(α, β, γ)로 동시에 균형 있게 확장한다. 기본 네트워크(EfficientNet-B0)는 Neural Architecture Search(NAS)로 탐색하여 찾고, 이를 복합 스케일링으로 B1~B7까지 체계적으로 확장한다.
방법론
먼저 MnasNet과 유사한 다목적 NAS를 수행하여 정확도와 FLOPS를 동시에 최적화하는 기본 아키텍처 B0를 탐색한다. 그리드 탐색으로 깊이(α), 너비(β), 해상도(γ)의 최적 비율을 결정한 뒤, 복합 계수 φ를 증가시키며 α^φ, β^φ, γ^φ로 세 차원을 동시에 확장한다. 주요 구성 요소는 MBConv(모바일 역잔차 블록)와 squeeze-and-excitation 모듈이다.
주요 결과
EfficientNet-B7은 ImageNet top-1 정확도 84.3%를 달성하며 당시 최고 성능을 기록했다. 기존 최고 모델(GPipe) 대비 8.4배 작고 6.1배 빠르면서도 더 높은 정확도를 보였다. B0~B7까지 일관되게 파라미터 대비 최고의 효율성을 입증했다.
임팩트
모델 스케일링에 대한 체계적 프레임워크를 제시하여 이후 효율적 아키텍처 연구의 핵심 참조가 되었다. EfficientNetV2에서 학습 속도까지 고려한 개선이 이루어졌으며, NAS 기반 설계와 체계적 스케일링의 결합이라는 패러다임은 모바일/엣지 컴퓨팅 분야에도 큰 영향을 미쳤다. 산업계에서도 효율적인 비전 백본으로 널리 채택되었다.