The Lottery Ticket Hypothesis: Finding Sparse, Trainable Neural Networks
복권 가설: 희소하고 학습 가능한 신경망 찾기
Jonathan Frankle, Michael Carlin (2019)
밀집 신경망 내부에 '당첨 복권(winning ticket)'과 같은 희소 부분 네트워크가 존재하며, 이를 초기 가중치부터 독립적으로 학습해도 원래 네트워크의 성능에 도달할 수 있다는 가설을 제시한 논문.
배경
신경망 가지치기(pruning)는 학습 후 파라미터를 제거하여 모델을 압축하는 기법으로 널리 사용되어 왔다. 그러나 가지치기된 구조를 처음부터 학습하면 원래 성능에 미치지 못하는 것이 일반적이었다. 이는 밀집 네트워크의 과잉 파라미터화가 학습에 본질적으로 필요한 것인지에 대한 근본적 질문을 제기했다.
핵심 아이디어
복권 가설(Lottery Ticket Hypothesis)은 무작위로 초기화된 밀집 네트워크에 특정 초기화 값과 구조의 조합으로 이루어진 '당첨 복권' 부분 네트워크가 존재한다고 주장한다. 이 부분 네트워크를 원래의 초기 가중치로 리셋한 후 학습하면, 전체 네트워크와 동등한 성능을 유사하거나 더 적은 반복 횟수로 달성한다. 반복적 가지치기(iterative magnitude pruning)를 통해 이러한 부분 네트워크를 찾을 수 있으며, 원래 파라미터의 10-20%만으로 충분한 경우가 많다.
방법론
밀집 네트워크를 학습한 뒤 가중치 크기가 작은 연결을 제거하고, 남은 연결의 가중치를 초기값으로 되돌린다. 이 과정을 반복하여 점점 더 작은 부분 네트워크를 추출한다. MNIST와 CIFAR-10에서 완전연결망과 CNN으로 실험했다.
주요 결과
발견된 당첨 복권 부분 네트워크는 원래 네트워크 대비 10-20% 크기에서도 동등하거나 더 나은 테스트 정확도를 달성했다. 무작위 재초기화 시에는 성능이 크게 떨어져, 초기 가중치 값 자체가 중요함을 확인했다.
임팩트
신경망의 과잉 파라미터화에 대한 근본적 이해를 제공하여, 효율적 학습과 모델 압축 연구에 큰 영향을 미쳤다. 네트워크 구조 탐색, 가지치기 이론, 희소 학습 등 후속 연구의 촉매제가 되었으며, NeurIPS 2019 Best Paper Award를 수상했다.