NeurIPS 2020Citations: 15,000+
Denoising Diffusion Probabilistic Models
잡음 제거 확산 확률 모델
Jonathan Ho, Ajay Jain, Pieter Abbeel (2020)
한줄 요약
데이터에 점진적으로 노이즈를 추가한 뒤, 그 역과정을 학습하여 고품질 이미지를 생성하는 확산 모델. Stable Diffusion, DALL-E 2 등의 기반이 된 논문.
배경 & 동기
2020년 시점 생성 모델의 지형:
- GAN: 고품질 생성 가능하나 학습 불안정 (mode collapse, 학습 실패)
- VAE: 안정적이나 생성 품질 흐릿
- Flow: 가역 변환이 구조적 제약
- Diffusion (Sohl-Dickstein 2015): 이론은 있었으나 실용적 성능 입증 미비
핵심 아이디어Forward/Reverse Diffusion Process
두 과정으로 구성:
- Forward process (노이즈 추가): 데이터 에 번에 걸쳐 가우시안 노이즈를 점진적으로 추가. 최종적으로 순수 노이즈 가 됨.
- Reverse process (노이즈 제거): 신경망이 각 스텝에서 노이즈를 예측하고 제거하여 로부터 를 복원.
핵심 단순화: 노이즈 자체를 예측하도록 재매개변수화하면 학습이 안정적이고 간단해진다.
수식Forward Process
임의 스텝으로의 직접 샘플링:
여기서 ,
수식학습 목적 함수 (Simplified)
여기서:
- : 실제 추가된 노이즈
- : 신경망이 예측한 노이즈
즉, 모델은 어떤 노이즈가 추가되었는지 맞추는 것만 학습하면 된다.
실험 결과
| 모델 | CIFAR-10 FID↓ | CIFAR-10 IS↑ | |---|---|---| | StyleGAN2 + ADA | 2.92 | 9.83 | | DDPM | 3.17 | 9.46 |
- GAN에 필적하는 생성 품질을 안정적 학습으로 달성
- LSUN 256×256에서도 고품질 이미지 생성
- Mode collapse 없이 다양한 샘플 생성
임팩트
생성 AI 패러다임을 GAN에서 Diffusion으로 전환시킨 논문.
- DALL-E 2 (2022): CLIP + Diffusion으로 텍스트→이미지 생성
- Stable Diffusion / LDM (2022): Latent space에서의 Diffusion으로 효율화
- Midjourney, Imagen: 상용 이미지 생성 서비스의 기반
- 비디오 생성 (Sora 등): Diffusion의 비디오 확장
- GAN 대비 학습 안정성, 다양성, 이론적 명확성에서 우위
- 인용 수 1.5만회 이상