A ConvNet for the 2020s
2020년대를 위한 합성곱 네트워크
Zhuang Liu, Hanzi Mao, Chao-Yuan Wu, et al. (2022)
Swin Transformer의 설계 원칙들을 순수 합성곱 네트워크에 체계적으로 적용하여, 트랜스포머와 동등하거나 우월한 성능을 달성한 '현대화된' ConvNet이다.
배경
ViT와 Swin Transformer의 성공 이후, 비전 분야에서 트랜스포머가 CNN을 대체하는 것이 대세로 여겨졌다. 그러나 트랜스포머의 우수한 성능이 자기 어텐션 메커니즘 자체 때문인지, 아니면 학습 전략이나 매크로/마이크로 설계 선택 때문인지는 명확하지 않았다. 순수 CNN으로도 유사한 성능을 달성할 수 있는지 체계적으로 검증할 필요가 있었다.
핵심 아이디어
ConvNeXt는 표준 ResNet에서 출발하여 Swin Transformer의 설계 요소들을 하나씩 CNN에 이식하며 점진적으로 성능을 개선한다. 주요 현대화 요소로는 (1) 스테이지별 연산 비율 조정(3:3:9:3 → 3:3:27:3처럼 Swin과 유사하게), (2) 패치화된 스템(patchify stem)으로 큰 스트라이드 사용, (3) ResNeXt 스타일의 분리 합성곱(depthwise convolution), (4) 커널 크기를 7x7로 확대하여 Swin의 7x7 윈도우에 대응, (5) 배치 정규화를 레이어 정규화로 교체, (6) GELU 활성 함수 사용, (7) 활성 함수와 정규화 레이어 수 감소 등이 있다. 이러한 변경들을 통해 순수 합성곱만으로 트랜스포머에 필적하는 성능을 달성한다.
방법론
ResNet-50에서 출발하여 위의 현대화 요소를 순차적으로 적용하며 각 변경의 영향을 실험적으로 검증한다. 최종 ConvNeXt 블록은 depthwise 7x7 합성곱 → LayerNorm → 1x1 합성곱 → GELU → 1x1 합성곱의 역병목(inverted bottleneck) 구조를 사용한다. 모델 크기별로 T/S/B/L/XL 변형을 제공하며, ImageNet-22K 사전학습도 수행한다.
주요 결과
ConvNeXt-T는 ImageNet-1K에서 82.1% top-1 정확도를 달성하여 Swin-T(81.3%)를 능가했다. 더 큰 모델에서도 Swin Transformer와 동등하거나 우수한 성능을 보였으며, COCO 검출과 ADE20K 분할에서도 경쟁력 있는 결과를 보여 순수 CNN의 잠재력을 재확인했다.
임팩트
CNN이 적절한 현대적 설계 원칙으로 여전히 트랜스포머와 경쟁할 수 있음을 실증적으로 보여주어, '트랜스포머 vs CNN' 논쟁에 중요한 균형점을 제시했다. 단순하고 효율적인 아키텍처로서 산업 현장에서의 실용적 가치도 높으며, ConvNeXt V2로 발전하며 자기 지도학습과의 결합도 연구되었다. 아키텍처 설계에서 '공정한 비교'의 중요성을 일깨워준 연구이다.