Learning Transferable Visual Models From Natural Language Supervision
자연어 감독으로 전이 가능한 시각 모델 학습
Alec Radford, Jong Wook Kim, Chris Hallacy, et al. (2021)
4억 개의 이미지-텍스트 쌍에 대해 대조 학습(contrastive learning)을 수행하여, 별도의 학습 없이 텍스트 프롬프트만으로 다양한 시각 과제를 수행할 수 있는 제로샷 전이(zero-shot transfer) 능력을 갖춘 멀티모달 표현 모델이다.
배경
기존 컴퓨터 비전 모델은 ImageNet 같은 고정된 레이블 집합으로 지도학습되어, 새로운 카테고리나 과제에 적용하려면 추가 레이블링과 파인튜닝이 필요했다. 자연어 감독(natural language supervision)을 활용하면 미리 정의된 카테고리에 얽매이지 않는 유연한 시각 표현을 학습할 수 있다는 아이디어가 있었지만, 이전 시도들은 규모와 성능 면에서 한계가 있었다.
핵심 아이디어
CLIP(Contrastive Language-Image Pre-training)은 이미지 인코더와 텍스트 인코더를 동시에 학습하여 대응하는 이미지-텍스트 쌍의 임베딩은 가깝게, 대응하지 않는 쌍은 멀어지도록 대조 학습한다. 핵심은 인터넷에서 수집한 4억 개의 이미지-텍스트 쌍(WebImageText)이라는 대규모 데이터셋과, 효율적인 대조 학습 목적함수의 조합이다. 학습된 모델은 제로샷 분류 시 'a photo of a {class name}' 같은 텍스트 프롬프트를 생성하여 텍스트 임베딩과 이미지 임베딩의 유사도로 분류를 수행한다. 프롬프트 엔지니어링과 앙상블을 통해 제로샷 성능을 더욱 향상시킬 수 있다.
방법론
이미지 인코더로 ResNet 또는 Vision Transformer(ViT)를, 텍스트 인코더로 Transformer를 사용한다. 미니배치 내에서 N개의 이미지-텍스트 쌍에 대해 N x N 유사도 행렬을 계산하고, 대각선(올바른 쌍)의 코사인 유사도를 최대화하는 대칭적 cross-entropy 손실을 사용한다. 학습 가능한 온도 파라미터로 로짓 스케일을 조절하며, 가장 큰 모델(ViT-L/14@336px)은 대규모 컴퓨팅으로 학습된다.
주요 결과
30개 이상의 다양한 데이터셋에서 제로샷 평가를 수행한 결과, ImageNet에서 제로샷 CLIP이 기존 지도학습된 ResNet-50과 동등한 정확도를 달성했다. 특히 분포 이동(distribution shift)에 대한 강건성이 뛰어나, 기존 모델들이 성능이 크게 떨어지는 변형 데이터셋에서도 안정적인 성능을 유지했다.
임팩트
CLIP은 멀티모달 AI의 근본적인 패러다임 전환을 가져왔다. 시각 표현을 자연어와 연결함으로써 제로샷 전이, 이미지 생성(DALL-E 2), 시각-언어 모델(Flamingo, LLaVA) 등 후속 연구의 핵심 구성요소가 되었다. '레이블이 아닌 언어로 시각을 감독한다'는 패러다임은 파운데이션 모델 시대를 여는 핵심 아이디어 중 하나로 자리잡았다.