A Simple Framework for Contrastive Learning of Visual Representations
시각 표현의 대조 학습을 위한 간단한 프레임워크
Ting Chen, Simon Kornblith, Mohammad Norouzi, Geoffrey Hinton (2020)
데이터 증강, 대규모 배치, 비선형 프로젝션 헤드를 결합한 간단한 대조 학습 프레임워크로, 라벨 없이도 강력한 시각 표현을 학습할 수 있음을 보인 논문.
배경
자기지도 시각 표현 학습은 라벨 의존도를 줄이는 핵심 과제였지만, 기존 방법들은 pretext task 설계에 의존하거나 지도학습 대비 큰 성능 격차가 있었다. 대조 학습(contrastive learning)이 유망한 방향으로 떠올랐으나, 어떤 구성요소가 핵심인지 체계적 분석이 부족했다.
핵심 아이디어
SimCLR은 같은 이미지의 두 가지 증강 뷰를 긍정 쌍(positive pair)으로, 배치 내 다른 이미지들을 부정 쌍(negative pair)으로 사용하는 대조 학습 프레임워크이다. 핵심 발견으로, (1) 랜덤 크롭과 색상 변환의 조합이 가장 효과적인 증강이며, (2) 인코더 뒤의 비선형 프로젝션 헤드가 표현 품질을 크게 향상시키고, (3) 대규모 배치와 긴 학습이 더 많은 부정 예시를 제공하여 성능을 높인다는 것을 밝혔다.
방법론
ResNet 인코더로 두 증강 뷰의 표현을 추출하고, 2층 MLP 프로젝션 헤드를 통과시킨 뒤 NT-Xent(정규화된 온도 크로스엔트로피) 손실로 학습한다. 배치 크기 4096~8192, 100~1000 에폭의 대규모 학습을 수행했다.
주요 결과
ImageNet 선형 평가에서 76.5% top-1 정확도를 달성하여 이전 자기지도 방법을 7% 이상 앞섰다. 라벨의 1%만 사용한 준지도 학습에서도 지도학습의 85% 이상 성능을 달성했다.
임팩트
대조 학습의 핵심 요소를 체계적으로 규명하여 자기지도 시각 표현 학습의 르네상스를 이끌었다. BYOL, DINO 등 후속 연구의 기반이 되었으며, CLIP 등 멀티모달 학습에도 대조 학습 원리가 확산되는 데 기여했다.