DINOv2: Learning Robust Visual Features without Supervision
DINOv2: 감독 없이 강건한 시각적 특징 학습
Maxime Oquab, Timothée Darcet, Théo Moutakanni, et al. (2023)
자동 큐레이션된 대규모 데이터, 개선된 자기지도 학습, 지식 증류를 결합하여 미세조정 없이도 다양한 비전 태스크에서 범용적으로 작동하는 시각 특징을 학습한 논문.
배경
DINO v1이 ViT의 자기지도 학습에서 인상적인 성질(자동 세그멘테이션 등)을 보였지만, ImageNet-1K에서만 학습하여 데이터 다양성에 한계가 있었다. 또한 NLP에서 기초 모델(GPT, BERT 등)이 범용적 표현을 제공하는 반면, 비전에서는 태스크마다 미세조정이 필수적이었다. 미세조정 없이 범용적으로 작동하는 시각 기초 모델이 부재했다.
핵심 아이디어
DINOv2는 세 가지 핵심 개선을 도입한다. (1) 자동 데이터 큐레이션: 웹에서 수집한 비큐레이트 데이터를 ImageNet의 의미적 다양성에 맞춰 자동으로 필터링하여 LVD-142M 데이터셋을 구축한다. 코사인 유사도 기반 중복 제거와 균형 잡힌 클러스터 샘플링을 수행한다. (2) 학습 안정화: DINO의 자기증류 + iBOT의 마스크 이미지 모델링을 결합하고, KoLeo 정규화, Sinkhorn-Knopp, 적응적 학습률 등으로 대규모 학습의 안정성을 확보한다. (3) 지식 증류: ViT-g/14 교사를 먼저 학습한 뒤, 더 작은 모델(ViT-S/B/L)로 증류하여 효율적 모델군을 구축한다.
방법론
LVD-142M 데이터셋에서 ViT-g/14를 DINO+iBOT 결합 손실로 학습한다. DINO 헤드(이미지 수준 자기증류)와 iBOT 헤드(패치 수준 마스크 예측)를 동시에 최적화한다. 학습된 ViT-g에서 ViT-S/14, ViT-B/14, ViT-L/14로 증류한다. A100 GPU 클러스터에서 대규모 분산 학습을 수행했다.
주요 결과
ImageNet k-NN 분류에서 ViT-g 기준 83.5%로 미세조정 없이 최고 성능을 달성했다. 깊이 추정, 시맨틱 세그멘테이션, 인스턴스 검색 등에서 선형 프로브만으로 태스크별 미세조정 모델에 필적하거나 능가했다. OpenCLIP 대비 이미지 분류와 검색 모두에서 우수했다.
임팩트
비전 분야에서 '미세조정 없는 범용 특징'이라는 기초 모델의 비전을 사실상 처음으로 실현했다. 오픈소스로 공개되어 의료 이미지 분석, 위성 영상, 로봇 비전 등 다양한 실용 분야에서 기본 백본으로 채택되고 있으며, 비전 기초 모델의 새로운 표준을 확립했다.