멀티모달
Multimodal AI
비전-언어, 오디오-텍스트, 통합 모델 연구
10개 논문
20242편
arXiv3,000+
Gemini: A Family of Highly Capable Multimodal Models
Gemini: 고성능 멀티모달 모델 패밀리
Gemini Team, Google DeepMind (2024)
CVPR 20241,000+
InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks
InternVL: 범용 시각-언어 과제를 위한 비전 파운데이션 모델 스케일링 및 정렬
Zhe Chen, Jiannan Wu, Wenhai Wang et al. (2024)
20233편
NeurIPS 2023Oral3,000+
Visual Instruction Tuning
시각적 지시 튜닝
Haotian Liu, Chunyuan Li, Qingyang Wu et al. (2023)
ICML 20235,000+
BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models
BLIP-2: 동결된 이미지 인코더와 대규모 언어 모델을 활용한 언어-이미지 사전학습 부트스트래핑
Junnan Li, Dongxu Li, Silvio Savarese et al. (2023)
arXiv1,000+
CogVLM: Visual Expert for Pretrained Language Models
CogVLM: 사전학습된 언어 모델을 위한 시각 전문가
Weihan Wang, Qingsong Lv, Wenmeng Yu et al. (2023)
20221편
20213편
ICML 202120,000+
Learning Transferable Visual Models From Natural Language Supervision
자연어 감독으로 전이 가능한 시각 모델 학습
Alec Radford, Jong Wook Kim, Chris Hallacy et al. (2021)
ICML 20215,000+
Zero-Shot Text-to-Image Generation
제로샷 텍스트-이미지 생성
Aditya Ramesh, Mikhail Pavlov, Gabriel Goh et al. (2021)
ICML 20213,000+
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision
노이즈가 포함된 텍스트 감독을 활용한 시각 및 비전-언어 표현 학습의 스케일링
Chao Jia, Yinfei Yang, Ye Xia et al. (2021)