Visual Instruction Tuning
시각적 지시 튜닝
Haotian Liu, Chunyuan Li, Qingyang Wu, Yong Jae Lee (2023)
CLIP 비전 인코더와 대규모 언어 모델(LLM)을 간단한 프로젝션 레이어로 연결하고, GPT-4로 생성한 시각 지시 따르기 데이터로 미세조정하여 강력한 멀티모달 대화 능력을 구현한 시각 지시 튜닝 접근법이다.
배경
GPT-4 등 대규모 언어 모델이 텍스트 기반 지시 따르기(instruction following)에서 놀라운 성능을 보인 반면, 시각 입력을 포함한 멀티모달 지시 따르기는 아직 초기 단계였다. 기존 멀티모달 모델들은 대규모의 이미지-텍스트 쌍을 필요로 했으며, 복잡한 시각적 추론이나 대화를 위한 훈련 데이터가 부족했다.
핵심 아이디어
LLaVA(Large Language and Vision Assistant)는 두 가지 핵심 기여를 한다. 첫째, GPT-4를 활용하여 기존 이미지 캡션과 바운딩 박스 정보로부터 고품질의 시각 지시 따르기 데이터(대화, 상세 설명, 복잡한 추론)를 자동 생성하는 파이프라인을 제시한다. 둘째, CLIP의 사전학습된 비전 인코더(ViT-L/14)의 시각 특징을 단순한 선형 프로젝션(또는 MLP)으로 LLM의 입력 공간에 매핑하여, 시각 토큰과 텍스트 토큰을 함께 처리할 수 있게 한다. 이 간단한 아키텍처가 Flamingo 같은 복잡한 설계 없이도 효과적으로 작동한다는 것을 보여준다.
방법론
학습은 2단계로 진행된다. 1단계(사전 정렬): LLM을 동결하고 프로젝션 레이어만 학습하여 시각-텍스트 특징 공간을 정렬한다(CC3M 필터링된 595K 이미지-텍스트 쌍). 2단계(시각 지시 튜닝): 프로젝션 레이어와 LLM을 함께 미세조정한다(GPT-4로 생성한 158K 시각 지시 따르기 데이터). Vicuna를 LLM 백본으로 사용한다.
주요 결과
Science QA에서 GPT-4(텍스트 전용)를 능가하는 성능을 보였으며, 시각 대화와 상세 설명 과제에서 높은 품질을 보여주었다. GPT-4 기반 평가에서 Flamingo 등 기존 모델 대비 우수한 대화 능력을 입증했다. 비교적 적은 학습 데이터와 간단한 아키텍처로도 효과적인 멀티모달 능력을 달성할 수 있음을 보여주었다.
임팩트
LLaVA는 시각 지시 튜닝(visual instruction tuning)이라는 새로운 학습 패러다임을 개척하여 오픈소스 멀티모달 모델 연구의 폭발적 성장을 이끌었다. 간단한 아키텍처와 데이터 생성 파이프라인의 접근성 덕분에 수많은 후속 연구(LLaVA-1.5, LLaVA-NeXT 등)와 오픈소스 VLM의 기반이 되었다. GPT-4를 교사로 활용한 데이터 생성 방식은 멀티모달 학습 데이터 구축의 효율적 방법론으로 확산되었다.