CVPR 2015Best PaperCitations: 40,000+

Going Deeper with Convolutions

더 깊은 합성곱으로: 인셉션 네트워크

Christian Szegedy, Wei Liu, Yangqing Jia, et al. (2015)

1x1, 3x3, 5x5 합성곱을 병렬로 수행하는 인셉션 모듈을 도입하여 AlexNet 대비 파라미터를 12배 줄이면서도 22층 깊이의 네트워크로 ILSVRC 2014에서 우승한 모델이다.

배경

2014년 시점에서 딥러닝 모델의 성능을 높이려면 네트워크를 더 깊고 넓게 만들어야 했지만, 이는 파라미터 수의 폭증과 과적합, 계산 비용 증가라는 문제를 수반했다. AlexNet(6천만 파라미터)이후 네트워크를 단순히 크게 만드는 접근법은 한계에 도달하고 있었으며, 제한된 계산 자원 내에서 네트워크의 표현력을 극대화하는 효율적인 아키텍처 설계가 필요했다.

핵심 아이디어

GoogLeNet/Inception은 하나의 레이어에서 여러 크기의 합성곱 필터(1x1, 3x3, 5x5)와 맥스 풀링을 병렬로 적용하고 그 결과를 채널 방향으로 결합하는 '인셉션 모듈'을 제안한다. 이를 통해 네트워크가 각 레이어에서 다양한 스케일의 특징을 동시에 포착할 수 있다. 핵심적으로 3x3, 5x5 합성곱 전에 1x1 합성곱을 배치하여 채널 수를 줄이는 차원 축소(bottleneck)를 적용함으로써, 계산량을 극적으로 감소시킨다. 이 설계 덕분에 22층이라는 당시로서는 매우 깊은 네트워크를 AlexNet의 1/12 파라미터(약 500만 개)로 구현할 수 있었다.

방법론

9개의 인셉션 모듈을 쌓아 총 22층의 네트워크를 구성한다. 각 인셉션 모듈 내에서 1x1 합성곱이 차원 축소 역할을 수행한 뒤 3x3, 5x5 합성곱이 적용된다. 학습 시 중간 레이어에 보조 분류기(auxiliary classifier)를 두어 깊은 네트워크에서의 기울기 소실 문제를 완화한다. 글로벌 평균 풀링을 최종 분류기 이전에 사용하여 완전연결 레이어의 파라미터를 크게 줄인다.

주요 결과

ILSVRC 2014 분류 챌린지에서 top-5 오류율 6.67%를 달성하며 1위를 차지했다. AlexNet(약 6천만 파라미터) 대비 12배 적은 파라미터로 훨씬 우수한 성능을 보여, 효율적 아키텍처 설계의 중요성을 입증했다.

임팩트

다중 스케일 특징 추출이라는 설계 원칙과 1x1 합성곱을 활용한 차원 축소 기법은 이후 거의 모든 CNN 아키텍처에 영향을 미쳤다. Inception v2/v3/v4로 지속 발전했으며, 효율적인 네트워크 설계라는 연구 방향(MobileNet, EfficientNet 등)의 선구적 역할을 했다. CVPR 2015 Best Paper로 선정되었다.

관련 Foundation 논문

관련 논문