NeurIPS 2014 WorkshopCitations: 15,000+

Distilling the Knowledge in a Neural Network

신경망의 지식 증류

Geoffrey Hinton, Oriol Vinyals, Jeff Dean (2015)

대형 교사 모델의 소프트 타겟(soft targets)을 사용하여 소형 학생 모델에 '어두운 지식(dark knowledge)'을 전달하는 지식 증류 프레임워크를 제안한 논문.

배경

대형 앙상블 모델이나 깊은 네트워크는 뛰어난 성능을 보이지만 추론 비용이 크다. 학습 시에는 큰 모델의 용량이 유리하지만, 배포 시에는 효율적인 작은 모델이 필요하다. 모델의 일반화 능력을 작은 모델로 옮기는 체계적 방법론이 요구되었다.

핵심 아이디어

핵심 통찰은 교사 모델의 소프트맥스 출력에 담긴 클래스 간 유사도 정보(dark knowledge)가 원-핫 라벨보다 훨씬 풍부하다는 것이다. 예를 들어 '자동차' 이미지에 대해 '트럭'에 높은 확률을 부여하는 것은 두 클래스의 유사성을 반영한다. 온도(temperature) 파라미터 T를 높여 소프트맥스를 부드럽게 하면 이 정보가 더 잘 드러난다. 학생 모델은 하드 라벨과 교사의 소프트 타겟을 동시에 학습하여, 교사의 일반화 능력을 흡수한다.

방법론

소프트맥스에 온도 T를 적용하여 교사의 출력 분포를 부드럽게 만들고, 학생 모델도 같은 온도에서 교사의 소프트 타겟을 KL-divergence로 모방하도록 학습한다. 최종 손실은 소프트 타겟 손실과 하드 라벨 크로스엔트로피의 가중 합이다.

주요 결과

MNIST에서 단일 학생 모델이 앙상블과 동등한 성능을 달성했으며, 음성 인식에서는 10개 모델 앙상블의 지식을 단일 모델로 성공적으로 압축했다.

임팩트

모델 압축과 배포 효율화의 표준 방법론이 되었다. 이후 DistilBERT, TinyBERT 등 NLP 모델 압축에 광범위하게 적용되었으며, 자기증류(self-distillation), 온라인 증류 등 다양한 변형으로 발전했다. 에지 디바이스 AI 배포의 핵심 기술이다.

관련 Foundation 논문

관련 논문