NeurIPS 2020Citations: 15,000+

Denoising Diffusion Probabilistic Models

잡음 제거 확산 확률 모델

Jonathan Ho, Ajay Jain, Pieter Abbeel (2020)

한줄 요약

데이터에 점진적으로 노이즈를 추가한 뒤, 그 역과정을 학습하여 고품질 이미지를 생성하는 확산 모델. Stable Diffusion, DALL-E 2 등의 기반이 된 논문.

2020년 시점 생성 모델의 지형:

핵심 아이디어Forward/Reverse Diffusion Process

두 과정으로 구성:

Forward process (노이즈 추가): 데이터 $x_0$ 에 $T$ 번에 걸쳐 가우시안 노이즈를 점진적으로 추가. 최종적으로 순수 노이즈 $x_T \sim \mathcal{N}(0, I)$ 가 됨.
Reverse process (노이즈 제거): 신경망이 각 스텝에서 노이즈를 예측하고 제거하여 $x_T$ 로부터 $x_0$ 를 복원.

핵심 단순화: 노이즈 자체를 예측하도록 재매개변수화하면 학습이 안정적이고 간단해진다.

수식Forward Process

$q(x_t | x_{t-1}) = \mathcal{N}(x_t; \sqrt{1-\beta_t} \, x_{t-1}, \beta_t I)$

임의 스텝으로의 직접 샘플링: $q(x_t | x_0) = \mathcal{N}(x_t; \sqrt{\bar{\alpha}_t} \, x_0, (1-\bar{\alpha}_t) I)$

여기서 $\alpha_t = 1 - \beta_t$ , $\bar{\alpha}_t = \prod_{s=1}^t \alpha_s$

수식학습 목적 함수 (Simplified)

$\mathcal{L}_{\text{simple}} = \mathbb{E}_{t, x_0, \epsilon}\left[\|\epsilon - \epsilon_\theta(x_t, t)\|^2\right]$

여기서:

즉, 모델은 어떤 노이즈가 추가되었는지 맞추는 것만 학습하면 된다.

| 모델 | CIFAR-10 FID↓ | CIFAR-10 IS↑ | |---|---|---| | StyleGAN2 + ADA | 2.92 | 9.83 | | DDPM | 3.17 | 9.46 |

임팩트

생성 AI 패러다임을 GAN에서 Diffusion으로 전환시킨 논문.