Momentum Contrast for Unsupervised Visual Representation Learning
비지도 시각 표현 학습을 위한 모멘텀 대조
Kaiming He, Haoqi Fan, Yuxin Wu, et al. (2019)
모멘텀으로 업데이트되는 키 인코더와 큐(queue) 기반 딕셔너리를 도입하여, 대규모 배치 없이도 효과적인 대조 학습을 가능하게 한 자기지도 시각 표현 학습 프레임워크.
배경
대조 학습은 유사한 쌍은 가깝게, 다른 쌍은 멀게 하는 원리로 표현을 학습한다. 효과적인 대조 학습에는 많은 부정 예시(negative samples)가 필요한데, 이를 위해 SimCLR은 거대한 배치를, 메모리 뱅크 방식은 오래된 표현을 사용하여 각각 한계가 있었다. 크고 일관된 부정 예시 집합을 효율적으로 유지하는 메커니즘이 필요했다.
핵심 아이디어
MoCo(Momentum Contrast)는 대조 학습을 딕셔너리 탐색(dictionary look-up) 문제로 정의한다. 두 가지 핵심 메커니즘을 도입하는데, (1) 큐(queue) 기반 딕셔너리: 현재와 이전 미니배치의 키를 큐에 저장하여, 배치 크기에 관계없이 큰 딕셔너리(65536)를 유지한다. (2) 모멘텀 인코더: 키 인코더를 쿼리 인코더의 지수이동평균(EMA)으로 느리게 업데이트하여, 큐 내 키 표현의 일관성을 보장한다. 이로써 큰 배치나 메모리 뱅크 없이도 대규모의 일관된 부정 예시 집합을 확보한다.
방법론
쿼리 인코더는 역전파로 업데이트하고, 키 인코더는 m=0.999의 모멘텀으로 EMA 업데이트한다. 각 미니배치에서 생성된 키를 큐에 추가하고, 가장 오래된 키를 제거한다. InfoNCE 손실로 쿼리-양성키 유사도를 최대화하고 쿼리-음성키 유사도를 최소화한다. ResNet-50으로 ImageNet에서 학습했다.
주요 결과
ImageNet 선형 평가에서 60.6% top-1 정확도를 달성하여 당시 자기지도 방법 중 최고를 기록했다. PASCAL VOC 객체 검출에서 지도학습 사전학습을 앞서는 전이 학습 성능을 보였으며, 256 배치에서도 안정적 학습이 가능했다.
임팩트
모멘텀 인코더와 큐 메커니즘은 이후 BYOL, DINO 등 자기지도 학습 연구의 핵심 설계 요소가 되었다. 대조 학습의 실용적 한계를 극복하여 자기지도 시각 표현 학습의 급격한 발전을 촉발했으며, MoCo v2, v3로 지속적으로 개선되었다.