ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks
ViLBERT: 비전-언어 과제를 위한 과제 비의존적 시각언어 표현 사전학습
Jiasen Lu, Dhruv Batra, Devi Parikh, Stefan Lee (2019)
이미지와 텍스트를 각각 독립적으로 처리하는 두 개의 BERT 스트림을 공동 어텐션(co-attention) 트랜스포머 레이어로 연결하여, 비전-언어 태스크를 위한 사전학습 모델을 제안한 논문.
배경
BERT가 NLP에서 큰 성공을 거두었지만, 시각과 언어를 동시에 이해하는 멀티모달 사전학습은 초기 단계였다. 기존 접근은 이미지와 텍스트를 단일 스트림에 합치거나, 단순한 후기 결합(late fusion)에 의존하여 모달리티 간 깊은 상호작용이 부족했다. 각 모달리티의 독립적 표현을 유지하면서도 효과적으로 교차하는 아키텍처가 필요했다.
핵심 아이디어
ViLBERT는 이미지와 텍스트를 위한 두 개의 병렬 BERT 스트림을 설계하고, 공동 어텐션 트랜스포머(co-attentional transformer) 레이어를 도입하여 두 스트림 사이에서 정보를 교환한다. 각 스트림의 쿼리가 상대 스트림의 키-밸류를 참조하여 교차 모달 어텐션을 수행한다. 이미지 영역은 사전학습된 Faster R-CNN으로 추출하고, 텍스트는 WordPiece 토큰으로 처리한다. 마스크 언어/이미지 모델링과 이미지-텍스트 일치 예측의 두 가지 사전학습 목표를 사용한다.
방법론
Conceptual Captions 3.3M 데이터셋에서 사전학습을 수행한다. 이미지는 Faster R-CNN으로 36개 영역 특징을 추출하고, 텍스트는 BERT 토크나이저로 처리한다. 공동 어텐션 레이어에서 각 모달리티의 쿼리가 상대방의 키-밸류를 어텐드하며, 6개 층에서 교차 정보 교환이 이루어진다.
주요 결과
VQA, VCR, Grounding, Image Retrieval 등 4가지 비전-언어 태스크에서 기존 최고 성능을 달성했다. 특히 단일 스트림 방식 대비 공동 어텐션이 더 효과적임을 입증했으며, 사전학습된 표현의 전이 학습 효과가 두드러졌다.
임팩트
비전-언어 사전학습의 초기 핵심 연구로, 두 스트림 공동 어텐션 구조가 이후 멀티모달 모델 설계의 중요한 기준점이 되었다. LXMERT, UNITER 등 후속 멀티모달 사전학습 모델에 직접적 영향을 미쳤으며, CLIP과 Flamingo로 이어지는 비전-언어 모델 발전의 토대를 놓았다.