ICML 2021Citations: 3,000+

Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision

노이즈가 포함된 텍스트 감독을 활용한 시각 및 비전-언어 표현 학습의 스케일링

Chao Jia, Yinfei Yang, Ye Xia, et al. (2021)

정제되지 않은 18억 개의 노이즈 이미지-텍스트 쌍을 듀얼 인코더로 학습하여, 데이터 규모의 힘으로 CLIP에 필적하는 비전-언어 정렬을 달성한 논문.

배경

CLIP이 4억 개의 정제된 이미지-텍스트 쌍으로 뛰어난 비전-언어 표현을 학습했지만, 고품질 데이터 큐레이션은 비용이 크다. 웹에서 수집한 노이즈 데이터를 정제 없이 대규모로 사용해도 유사한 성능을 달성할 수 있는지가 핵심 질문이었다. 데이터 품질과 규모 사이의 트레이드오프를 체계적으로 탐구할 필요가 있었다.

핵심 아이디어

ALIGN은 최소한의 필터링만 적용한 18억 개의 노이즈 이미지-텍스트 쌍(alt-text 기반)을 사용한다. 이미지 인코더로 EfficientNet, 텍스트 인코더로 BERT를 사용하는 듀얼 인코더 구조에서, 대조 학습(contrastive learning)으로 이미지-텍스트 임베딩을 정렬한다. 핵심 발견은 데이터의 노이즈가 있어도, 충분한 규모가 있으면 노이즈를 자연스럽게 극복하여 강력한 표현을 학습한다는 것이다. 간단한 빈도 기반 필터링만으로 충분하며, 복잡한 큐레이션은 불필요하다.

방법론

EfficientNet-L2를 이미지 인코더, BERT-Large를 텍스트 인코더로 사용하여 인배치 대조 손실(in-batch contrastive loss)로 학습한다. 배치 크기 16,384로 노이즈 이미지-alt text 쌍에서 직접 학습하며, 이미지-텍스트 유사도를 정규화된 내적으로 계산한다.

주요 결과

ImageNet 제로샷 분류에서 CLIP에 필적하는 76.4% top-1 정확도를 달성했다. Flickr30K 이미지-텍스트 검색에서 새로운 최고 성능을 기록했으며, 다국어 텍스트-이미지 검색에서도 강력한 성능을 보였다.

임팩트

대규모 노이즈 데이터의 효용성을 실증하여, 멀티모달 학습에서 데이터 큐레이션의 필요성을 재고하게 만들었다. CLIP과 함께 비전-언어 듀얼 인코더의 확장 가능성을 확인했으며, 이후 SigLIP, EVA-CLIP 등 효율적 대조 학습 연구에 영향을 미쳤다.

관련 Foundation 논문

관련 논문