멀티모달

Multimodal AI

비전-언어, 오디오-텍스트, 통합 모델 연구

10개 논문

20242편

arXiv3,000+

Gemini: A Family of Highly Capable Multimodal Models

Gemini: 고성능 멀티모달 모델 패밀리

Gemini Team, Google DeepMind (2024)

CVPR 20241,000+

InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks

InternVL: 범용 시각-언어 과제를 위한 비전 파운데이션 모델 스케일링 및 정렬

Zhe Chen, Jiannan Wu, Wenhai Wang et al. (2024)

20233편

NeurIPS 2023Oral3,000+

Visual Instruction Tuning

시각적 지시 튜닝

Haotian Liu, Chunyuan Li, Qingyang Wu et al. (2023)

ICML 20235,000+

BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models

BLIP-2: 동결된 이미지 인코더와 대규모 언어 모델을 활용한 언어-이미지 사전학습 부트스트래핑

Junnan Li, Dongxu Li, Silvio Savarese et al. (2023)

arXiv1,000+

CogVLM: Visual Expert for Pretrained Language Models

CogVLM: 사전학습된 언어 모델을 위한 시각 전문가

Weihan Wang, Qingsong Lv, Wenmeng Yu et al. (2023)

20221편

NeurIPS 20223,000+

Flamingo: a Visual Language Model for Few-Shot Learning

Flamingo: 퓨샷 학습을 위한 시각 언어 모델

Jean-Baptiste Alayrac, Jeff Donahue, Pauline Luc et al. (2022)

20213편

ICML 202120,000+

Learning Transferable Visual Models From Natural Language Supervision

자연어 감독으로 전이 가능한 시각 모델 학습

Alec Radford, Jong Wook Kim, Chris Hallacy et al. (2021)

ICML 20215,000+

Zero-Shot Text-to-Image Generation

제로샷 텍스트-이미지 생성

Aditya Ramesh, Mikhail Pavlov, Gabriel Goh et al. (2021)

ICML 20213,000+

Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision

노이즈가 포함된 텍스트 감독을 활용한 시각 및 비전-언어 표현 학습의 스케일링

Chao Jia, Yinfei Yang, Ye Xia et al. (2021)

20191편

NeurIPS 20193,000+

ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks

ViLBERT: 비전-언어 과제를 위한 과제 비의존적 시각언어 표현 사전학습

Jiasen Lu, Dhruv Batra, Devi Parikh et al. (2019)

← 전체 분야 목록으로