Hierarchical Text-Conditional Image Generation with CLIP Latents
CLIP 잠재 변수를 이용한 계층적 텍스트 조건 이미지 생성
Aditya Ramesh, Prafulla Dhariwal, Alex Nichol, et al. (2022)
CLIP 텍스트 임베딩으로부터 확산 사전(prior)을 거쳐 이미지를 생성하는 계층적 텍스트-이미지 생성 모델이다.
배경
DALL-E 1이 텍스트에서 이미지를 생성할 수 있음을 보였지만, 생성 품질과 해상도에 한계가 있었다. 한편 CLIP은 텍스트와 이미지를 공유 임베딩 공간에 매핑하여 강력한 멀티모달 표현을 학습했고, GLIDE는 텍스트 조건부 확산 모델로 높은 품질의 이미지 생성을 입증했다. 이 두 갈래의 발전을 통합할 방법이 필요했다.
핵심 아이디어
DALL-E 2(unCLIP)는 두 단계의 생성 과정을 거친다. 먼저 '사전 모델(prior)'이 CLIP 텍스트 임베딩으로부터 대응하는 CLIP 이미지 임베딩을 생성한다. 그런 다음 '디코더'가 이 CLIP 이미지 임베딩을 조건으로 실제 이미지를 생성한다. CLIP의 공동 임베딩 공간을 활용함으로써 텍스트의 의미적 내용이 이미지 생성에 충실히 반영되며, 이미지 임베딩의 보간(interpolation)이나 변환을 통해 이미지 변형과 편집이 자연스럽게 가능해진다. 디코더로는 GLIDE 기반의 확산 모델을 사용하며, 업샘플러를 통해 고해상도 출력을 얻는다.
방법론
사전 모델은 자기회귀 모델 또는 확산 모델로 구현하며(확산 버전이 성능이 더 우수), CLIP 텍스트 임베딩을 입력받아 CLIP 이미지 임베딩을 예측한다. 디코더는 64x64 해상도의 GLIDE 변형 모델이며, 이후 두 단계의 업샘플러(64→256→1024)로 최종 1024x1024 이미지를 생성한다. Classifier-free guidance를 적용하여 텍스트 부합도와 다양성의 균형을 조절한다.
주요 결과
텍스트-이미지 생성에서 GLIDE를 능가하는 포토리얼리즘과 텍스트 부합도를 보였다. CLIP 임베딩 공간에서의 보간으로 시맨틱하게 의미 있는 이미지 블렌딩이 가능했고, 텍스트 차이를 이용한 이미지 편집도 시연했다. 다만 텍스트 렌더링이나 공간 관계 표현에는 한계를 보였다.
임팩트
텍스트-이미지 생성의 품질을 한 단계 끌어올려 대중적 관심을 크게 불러일으켰다. CLIP을 생성 모델의 핵심 구성 요소로 활용하는 패러다임을 확립했으며, 이미지 편집과 변형에 있어 새로운 가능성을 열었다. Stable Diffusion, Imagen 등 동시대 모델들과 함께 AI 이미지 생성 혁명을 촉발했다.