CVPR 2024Citations: 1,000+

InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks

InternVL: 범용 시각-언어 과제를 위한 비전 파운데이션 모델 스케일링 및 정렬

Zhe Chen, Jiannan Wu, Wenhai Wang, et al. (2024)

비전 파운데이션 모델을 60억 파라미터 규모로 확장하고 LLM과 점진적으로 정렬하여, 이미지·비디오·문서 이해를 아우르는 범용 비전-언어 모델을 구축한 논문.

배경

CLIP 등의 비전-언어 모델은 비전 인코더의 규모가 상대적으로 작아(ViT-L/14, ~300M), 언어모델의 급격한 성장에 비해 비전 측의 표현력이 부족했다. 비전 인코더를 수십억 파라미터로 확장하면서도 효과적으로 LLM과 정렬하는 것이 도전적 과제였다.

핵심 아이디어

InternVL은 InternViT-6B라는 60억 파라미터의 비전 트랜스포머를 설계하여, 비전 측의 표현력을 대폭 강화한다. 점진적 정렬 전략을 사용하여, 대조 학습으로 비전-언어 정렬을 먼저 수행한 뒤, 생성적 학습으로 LLM과의 연결을 심화한다. 동적 고해상도(dynamic high-resolution) 입력을 지원하여 다양한 종횡비와 해상도의 이미지를 효율적으로 처리한다. 비전 인코더의 특징을 QLLaMA를 통해 LLM 입력 공간으로 투영하며, 비전과 언어 모두에서 강력한 성능을 달성한다.

방법론

InternViT-6B를 웹 규모 이미지-텍스트 데이터에서 대조 학습으로 사전학습한다. 이후 QLLaMA(Q-Former 스타일의 LLaMA 변형)를 통해 InternLM-7B/20B 등의 LLM과 연결한다. 다단계 학습으로 저해상도 정렬, 고해상도 미세조정, 인스트럭션 튜닝을 순차적으로 수행한다.

주요 결과

이미지 분류, 시각적 질의응답, 문서 이해, 비디오 이해 등 광범위한 벤치마크에서 경쟁력 있는 성능을 달성했다. 특히 OCR, 차트 이해 등 세밀한 시각적 인식이 필요한 태스크에서 우수했으며, GPT-4V에 필적하는 결과를 다수 벤치마크에서 보였다.

임팩트

비전 파운데이션 모델의 규모 확장이 멀티모달 성능에 핵심적임을 입증하여, 비전 인코더 연구의 새로운 방향을 제시했다. InternVL 1.5, 2.0으로 빠르게 발전하며 오픈소스 멀티모달 모델의 최전선에 자리잡았고, 상용 모델에 비견되는 오픈소스 대안으로서 커뮤니티에 큰 기여를 했다.

관련 Foundation 논문

관련 논문