ICLR 2021Citations: 8,000+

Denoising Diffusion Implicit Models

노이즈 제거 확산 암묵적 모델

Jiaming Song, Chenlin Meng, Stefano Ermon (2020)

확산 모델의 역과정을 비마르코프(non-Markovian) 과정으로 일반화하여 결정론적 샘플링을 가능하게 하고, 추론 단계를 10~50배 줄여도 높은 생성 품질을 유지하는 기법이다.

배경

DDPM은 뛰어난 생성 품질을 보여주었지만, 수천 스텝에 이르는 마르코프 체인의 역과정을 순차적으로 시뮬레이션해야 하므로 샘플링이 매우 느렸다(이미지 한 장에 수 분 소요). 이는 GAN의 단일 순전파에 비해 수백~수천 배 느린 것으로, 확산 모델의 실용적 적용을 심각하게 제한하는 병목이었다.

핵심 아이디어

DDIM은 DDPM과 동일한 학습 목적함수를 공유하면서도, 추론 시 비마르코프(non-Markovian) 역과정을 사용할 수 있음을 보인다. 핵심 통찰은 확산 모델의 주변 분포(marginal distribution) q(x_t|x_0)만 DDPM과 일치시키면, 중간 스텝들의 조건부 분포는 자유롭게 선택할 수 있다는 것이다. 이를 통해 (1) 전체 T 스텝의 부분 집합 S만 사용하는 서브시퀀스 샘플링이 가능하고, (2) 노이즈를 0으로 설정하면 완전히 결정론적인 역과정을 얻어, 잠재 코드와 생성 이미지 간 일대일 대응(encoding-decoding)이 가능해진다. 즉, 동일한 잠재 코드에서 항상 같은 이미지가 생성되는 일관성을 확보한다.

방법론

DDPM과 동일한 노이즈 예측 네트워크 ε_θ를 사용하되, 역과정의 업데이트 공식을 σ(분산 파라미터)를 포함한 일반화된 형태로 변경한다. σ=0이면 결정론적 DDIM, σ가 DDPM 값이면 원래 DDPM을 복원한다. 추론 시 {1, 2, ..., T}의 부분 집합 τ(예: 50스텝)만 선택하여 샘플링하며, 각 스텝에서 예측된 노이즈로 x_0을 추정한 뒤 다음 타임스텝의 x_τ를 계산한다.

주요 결과

CIFAR-10과 CelebA에서 DDPM 대비 10~50배 적은 스텝으로 동등하거나 더 나은 FID를 달성했다. 50스텝 DDIM이 1000스텝 DDPM과 유사한 품질을 보였으며, 결정론적 샘플링 덕분에 의미 있는 잠재 공간 보간(interpolation)이 가능함을 시연했다.

임팩트

확산 모델의 느린 추론이라는 핵심 병목을 크게 완화하여 실용적 적용을 가능하게 했다. 결정론적 매핑은 이미지 편집(SDEdit), 반전(inversion), 보간 등 다양한 응용의 기반이 되었다. PNDM, DPM-Solver, PLMS 등 이후 빠른 샘플러 연구의 직접적 기반이 되었으며, LDM/Stable Diffusion에서도 핵심 샘플링 기법으로 사용된다.

관련 Foundation 논문

관련 논문