ICCV 2021Citations: 5,000+

Emerging Properties in Self-Supervised Vision Transformers

자기지도 비전 트랜스포머에서 나타나는 특성

Mathilde Caron, Hugo Touvron, Ishan Misra, et al. (2021)

비전 트랜스포머(ViT)에 자기증류(self-distillation)를 적용하면 라벨 없이도 명시적 세그멘테이션 정보가 자연스럽게 출현함을 발견한 논문.

배경

자기지도 학습은 CNN 기반에서 큰 성과를 보였지만, ViT에 대한 적용은 초기 단계였다. ViT가 CNN과 다른 특성(어텐션 맵, 글로벌 수용장 등)을 가지므로, 자기지도 학습에서 어떤 고유한 성질이 나타나는지 탐구할 필요가 있었다.

핵심 아이디어

DINO(Self-DIstillation with NO labels)는 학생-교사 프레임워크에서 두 네트워크 모두 같은 구조를 사용하되, 교사는 학생의 EMA로 업데이트된다. 학생은 로컬 크롭(작은 영역)을, 교사는 글로벌 크롭(넓은 영역)을 입력받아, 학생이 교사의 출력 분포를 맞추도록 학습한다. 핵심 발견은 이렇게 학습된 ViT의 자기어텐션 맵이 사전 학습만으로 객체의 세그멘테이션 경계를 정확하게 포착한다는 것이다. 또한 출력 센터링(centering)과 샤프닝(sharpening)으로 모드 붕괴를 방지한다.

방법론

멀티크롭 전략으로 2개의 글로벌 뷰(224x224)와 여러 로컬 뷰(96x96)를 생성한다. 교사-학생 출력의 크로스엔트로피 손실을 최소화하되, 교사 출력에 센터링을 적용하여 붕괴를 방지한다. ViT-S/16부터 ViT-B/8까지 다양한 규모로 실험했다.

주요 결과

ImageNet 선형 평가에서 ViT-B/8 기준 80.1% top-1 정확도를 달성했다. [CLS] 토큰의 k-NN 분류도 78.3%에 달해 별도 학습 없이도 강력한 표현을 형성함을 입증했다. 어텐션 맵의 자동 세그멘테이션 품질이 지도학습 모델을 능가했다.

임팩트

ViT의 자기지도 학습에서 출현하는 성질을 최초로 체계적으로 분석하여, 기초 모델(foundation model) 시대의 표현 학습 방향을 제시했다. DINOv2로 발전하며 다양한 비전 태스크의 범용 백본이 되었고, MAE 등과 함께 비전 자기지도 학습의 양대 축을 형성했다.

관련 Foundation 논문

관련 논문