ICML 2021Citations: 5,000+

Zero-Shot Text-to-Image Generation

제로샷 텍스트-이미지 생성

Aditya Ramesh, Mikhail Pavlov, Gabriel Goh, et al. (2021)

이산 VAE(dVAE)로 이미지를 토큰화한 뒤 자기회귀 트랜스포머로 텍스트-이미지 토큰을 생성하여, 제로샷 텍스트-이미지 생성을 최초로 실현한 논문.

배경

텍스트 설명으로부터 이미지를 생성하는 것은 오랜 AI 연구 과제였지만, 기존 GAN 기반 방법들은 특정 도메인에 제한되거나 텍스트의 세밀한 의미를 반영하지 못했다. GPT 시리즈의 성공으로 자기회귀 모델의 강력한 생성 능력이 입증되었고, 이를 이미지 생성에 확장하려는 시도가 자연스럽게 이어졌다.

핵심 아이디어

DALL-E는 두 단계로 구성된다. 첫째, 이산 VAE(dVAE)가 256x256 이미지를 32x32 격자의 8192개 코드북 토큰으로 압축한다. Gumbel-Softmax 완화를 사용하여 이산 잠재 변수에 대해 end-to-end 학습이 가능하다. 둘째, 120억 파라미터의 자기회귀 트랜스포머가 256개의 BPE 텍스트 토큰과 1024개의 이미지 토큰을 하나의 시퀀스로 연결하여, 텍스트 조건부 이미지 생성을 수행한다. 추론 시 CLIP을 사용한 리랭킹으로 최적 이미지를 선택한다.

방법론

2.5억 개의 이미지-텍스트 쌍에서 학습한다. dVAE를 먼저 학습하여 이미지 토크나이저를 만들고, 이후 텍스트+이미지 토큰 시퀀스에 대해 자기회귀 트랜스포머를 학습한다. 희소 어텐션 패턴을 사용하여 긴 시퀀스(1280 토큰)의 계산 비용을 줄였다.

주요 결과

다양한 텍스트 프롬프트에 대해 창의적이고 의미적으로 일관된 이미지를 생성했다. '아보카도 모양의 안락의자'와 같은 새로운 개념 조합도 합성할 수 있어, 강력한 구성적 일반화(compositional generalization) 능력을 보였다.

임팩트

텍스트-이미지 생성 분야를 개척한 기념비적 연구로, AI 창작의 새로운 시대를 열었다. DALL-E 2, Stable Diffusion, Midjourney 등 후속 이미지 생성 모델의 직접적 영감이 되었으며, 자기회귀 모델링을 비전 도메인으로 확장하는 핵심 사례가 되었다.

관련 Foundation 논문

관련 논문