ICML 2023Citations: 5,000+

BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

BLIP-2: 동결된 이미지 인코더와 대규모 언어 모델을 활용한 언어-이미지 사전학습 부트스트래핑

Junnan Li, Dongxu Li, Silvio Savarese, Steven Hoi (2023)

동결된 이미지 인코더와 동결된 대규모 언어모델 사이를 경량 Q-Former로 연결하여, 효율적이면서 강력한 멀티모달 이해와 생성을 달성한 논문.

배경

비전-언어 모델의 규모가 커지면서, 이미지 인코더와 언어모델을 처음부터 공동 학습하는 것은 엄청난 계산 비용을 요구했다. Flamingo 등이 동결된 모델 위에 어댑터를 추가하는 방식을 시도했지만, 두 모달리티 간의 효과적 정렬이 도전적이었다. 최소한의 학습 가능 파라미터로 사전학습된 모델의 능력을 최대한 활용하는 방법이 필요했다.

핵심 아이디어

BLIP-2의 핵심은 Q-Former(Querying Transformer)라는 경량 브릿지 모듈이다. Q-Former는 학습 가능한 32개의 쿼리 토큰을 사용하여 동결된 이미지 인코더에서 가장 유용한 시각 정보를 추출한다. 2단계 사전학습 전략을 사용하는데, 1단계에서 Q-Former를 이미지 인코더에 정렬하고(ITC, ITM, ITG 손실), 2단계에서 Q-Former의 출력을 동결된 LLM의 입력 공간에 투영한다. 이를 통해 이미지 인코더와 LLM을 모두 동결한 채 188M 파라미터만 학습하여 효율성을 극대화한다.

방법론

1단계에서 ViT-G/14를 동결하고 Q-Former를 이미지-텍스트 대조(ITC), 이미지-텍스트 매칭(ITM), 이미지 조건부 텍스트 생성(ITG)으로 학습한다. 2단계에서 Q-Former 출력을 FC 레이어로 LLM 임베딩 공간에 투영하고, 동결된 OPT 또는 FlanT5를 사용하여 시각 조건부 언어 생성을 학습한다.

주요 결과

VQAv2에서 제로샷 65.0%를 달성하여 Flamingo-80B(56.3%)를 54배 적은 학습 파라미터로 앞섰다. 이미지 캡셔닝, 시각 추론 등 다양한 태스크에서 기존 최고 성능을 갱신했으며, 학습 비용은 기존 대비 크게 절감되었다.

임팩트

동결된 사전학습 모델을 경량 브릿지로 연결하는 효율적 멀티모달 학습 패러다임을 확립했다. LLaVA, InstructBLIP, MiniGPT-4 등 후속 비전-언어 모델의 설계 철학에 직접적 영향을 미쳤으며, 대규모 모델의 재사용과 합성을 통한 멀티모달 AI 구축의 실용적 경로를 제시했다.

관련 Foundation 논문

관련 논문