arXivCitations: 3,000+

Gemini: A Family of Highly Capable Multimodal Models

Gemini: 고성능 멀티모달 모델 패밀리

Gemini Team, Google DeepMind (2024)

텍스트, 이미지, 오디오, 비디오, 코드를 처음부터 네이티브하게 이해하고 생성하는 멀티모달 모델로, 다양한 벤치마크에서 SOTA를 달성한 구글의 차세대 AI 시스템.

배경

GPT-4가 텍스트와 이미지를 처리할 수 있었지만, 오디오와 비디오는 별도 파이프라인에 의존했다. 대부분의 멀티모달 모델은 각 모달리티를 별도로 인코딩한 뒤 결합하는 방식이었으며, 진정한 네이티브 멀티모달 모델--모든 모달리티를 처음부터 통합 학습한--은 아직 실현되지 않았다.

핵심 아이디어

Gemini는 텍스트, 이미지, 오디오, 비디오를 네이티브하게 처리하도록 처음부터 설계된 트랜스포머 기반 모델이다. 각 모달리티를 별도 인코더로 처리한 뒤 결합하는 기존 방식과 달리, 다양한 모달리티의 인터리브된(interleaved) 입출력을 자연스럽게 처리한다. Ultra, Pro, Nano의 세 가지 크기로 제공되며, 긴 컨텍스트(32K 토큰)를 효율적으로 처리한다. 비디오를 프레임 시퀀스가 아닌 연속적 시공간 스트림으로 이해하고, 오디오의 음높이·감정·배경소리 등을 직접 인식한다.

방법론

대규모 멀티모달 데이터셋(웹 문서, 이미지, 오디오, 비디오)에서 혼합 학습을 수행한다. TPUv4/v5e 클러스터에서 효율적인 학습 인프라를 구축하고, 텍스트·이미지·오디오·비디오 모달리티를 동시에 학습한다. 구체적 아키텍처 세부사항은 비공개이나, 디코더 전용 트랜스포머를 기반으로 한다.

주요 결과

Gemini Ultra는 MMLU에서 90.0%로 인간 전문가 수준을 처음으로 넘었고, 32개 멀티모달 벤치마크 중 30개에서 기존 SOTA를 갱신했다. 수학 추론(MATH), 코드 생성(HumanEval), 멀티모달 이해(MMMU) 등에서 GPT-4V를 상회하는 성능을 보였다.

임팩트

네이티브 멀티모달 AI의 가능성을 대규모로 실증하여, AI 시스템이 인간처럼 여러 감각을 통합적으로 처리할 수 있는 방향을 제시했다. GPT-4와의 경쟁 구도를 형성하며 AI 모델의 멀티모달화를 가속시켰고, 이후 Gemini 1.5 Pro의 100만 토큰 컨텍스트 윈도우 등 혁신적 후속 발전으로 이어졌다.

관련 Foundation 논문

관련 논문