arXivCitations: 1,000+

CogVLM: Visual Expert for Pretrained Language Models

CogVLM: 사전학습된 언어 모델을 위한 시각 전문가

Weihan Wang, Qingsong Lv, Wenmeng Yu, et al. (2023)

트랜스포머의 각 레이어에 학습 가능한 시각 전문가(visual expert) 모듈을 삽입하여, 언어모델 성능을 유지하면서 깊은 수준의 비전-언어 융합을 달성한 논문.

배경

기존 비전-언어 모델은 이미지 특징을 언어모델의 입력 공간에 투영하는 얕은 정렬(shallow alignment)에 의존했다. 이는 시각 정보가 트랜스포머의 깊은 층에서 충분히 활용되지 못하는 한계가 있었다. MLP 어댑터나 크로스 어텐션은 부가적 모듈에 불과하여, 시각과 언어의 진정한 심층 통합에 한계가 있었다.

핵심 아이디어

CogVLM은 트랜스포머의 모든 어텐션 레이어와 FFN 레이어에 시각 전문가(visual expert)를 추가한다. 각 레이어에서 텍스트 토큰은 원래의 가중치로, 시각 토큰은 별도의 시각 전문가 가중치로 처리된다. 이미지 토큰의 QKV 프로젝션과 FFN에 각각 별도의 학습 가능한 행렬을 배치하여, 시각 정보가 네트워크의 모든 깊이에서 전문적으로 처리된다. 핵심은 원래 언어모델의 가중치를 동결하여 언어 능력을 보존하면서, 시각 전문가만 학습하여 시각적 이해를 추가하는 것이다.

방법론

EVA2-CLIP-E를 이미지 인코더로 사용하고, Vicuna-7B 등의 언어모델에 시각 전문가 모듈을 삽입한다. 1단계에서 1.5B 이미지-텍스트 쌍으로 시각 전문가를 사전학습하고, 2단계에서 시각 질의응답(VQA) 등 다운스트림 데이터로 미세조정한다. 시각 전문가의 파라미터 수는 언어모델과 동일 규모이다.

주요 결과

VQAv2, OKVQA, TextVQA, ScienceQA 등 17개 벤치마크 중 10개에서 기존 최고 성능을 달성했다. 특히 시각적 근거 추론(visual grounding)에서 뛰어난 성능을 보였으며, 언어모델의 원래 NLP 능력도 잘 보존되었다.

임팩트

심층 비전-언어 융합의 새로운 패러다임을 제시하여, 얕은 정렬 방식의 한계를 극복하는 방향을 열었다. 시각 전문가 구조는 이후 CogVLM2, CogAgent 등으로 발전했으며, 멀티모달 모델에서 모달리티별 전문화 처리의 중요성을 부각시켰다.

관련 Foundation 논문

관련 논문