CVPR 2022OralCitations: 12,000+

High-Resolution Image Synthesis with Latent Diffusion Models

잠재 확산 모델을 이용한 고해상도 이미지 합성

Robin Rombach, Andreas Blattmann, Dominik Lorenz, et al. (2022)

사전학습된 오토인코더의 잠재 공간에서 확산 과정을 수행하여 고해상도 이미지 생성의 계산 비용을 획기적으로 줄인 모델(Stable Diffusion의 기반)이다.

배경

DDPM 등 확산 모델은 뛰어난 생성 품질을 보였지만, 고해상도 이미지의 픽셀 공간에서 직접 노이즈 제거를 수행하므로 막대한 계산 비용이 필요했다. 수백 스텝의 반복적 추론과 고해상도 텐서 연산으로 인해 학습과 생성 모두 GPU 자원이 크게 요구되어 접근성이 제한적이었다.

핵심 아이디어

LDM은 확산 과정을 고차원 픽셀 공간이 아닌 저차원 잠재 공간(latent space)에서 수행하는 2단계 접근법을 제안한다. 먼저 오토인코더를 학습하여 이미지를 압축된 잠재 표현으로 인코딩하고, 이 잠재 공간에서 확산 모델을 학습한다. 잠재 공간의 차원이 픽셀 공간보다 훨씬 작으므로(예: 4~16배 다운샘플링) 계산량이 대폭 줄어든다. 또한 크로스 어텐션(cross-attention) 메커니즘을 통해 텍스트, 레이아웃, 시맨틱 맵 등 다양한 조건 입력을 유연하게 처리할 수 있는 범용 조건부 생성 프레임워크를 제공한다.

방법론

1단계에서 KL-정규화 또는 VQ-정규화가 적용된 오토인코더를 학습한다. 2단계에서 잠재 공간의 U-Net 기반 확산 모델을 학습하며, 조건 입력은 도메인별 인코더(CLIP 텍스트 인코더 등)로 변환한 후 U-Net의 크로스 어텐션 레이어에 주입한다. Classifier-free guidance를 사용하여 조건 부합도를 높인다.

주요 결과

인페인팅, 초해상도, 텍스트-이미지 생성 등에서 픽셀 공간 확산 모델과 동등하거나 우수한 FID를 달성하면서, 학습 및 추론 비용을 대폭 절감했다. 특히 256x256 이상의 고해상도 생성에서 효율성 차이가 두드러졌다.

임팩트

Stable Diffusion의 핵심 기술로서 텍스트-이미지 생성의 대중화를 이끌었다. 오픈소스로 공개되어 AI 이미지 생성 생태계(Midjourney, DALL-E 등과 경쟁)의 폭발적 성장에 기여했으며, ControlNet, LoRA 파인튜닝 등 수많은 확장 기법의 기반이 되었다. 잠재 공간 확산이라는 패러다임은 비디오, 3D, 오디오 생성 등으로도 확장되고 있다.

관련 Foundation 논문

관련 논문