ICML 2023Citations: 1,500+

Consistency Models

일관성 모델

Yang Song, Prafulla Dhariwal, Mark Chen, Ilya Sutskever (2023)

확산 궤적 위의 임의의 점을 궤적의 시작점(깨끗한 이미지)으로 직접 매핑하는 일관성 함수를 학습하여, 단일 스텝만으로도 고품질 이미지를 생성할 수 있는 모델이다.

배경

확산 모델은 뛰어난 생성 품질을 보이지만, 수십~수백 스텝의 반복적 노이즈 제거가 필요해 생성 속도가 느렸다. DDIM, DPM-Solver 등이 스텝 수를 줄였지만 여전히 10스텝 이상이 필요했으며, 증류(distillation) 기반 방법은 사전학습된 확산 모델에 의존하는 한계가 있었다. 단일 스텝으로 GAN에 필적하는 속도와 확산 모델 수준의 품질을 동시에 달성하는 것이 이상적 목표였다.

핵심 아이디어

Consistency Models는 확산 과정의 확률 미분 방정식(PDE) 궤적에서 핵심적 성질을 활용한다: 같은 궤적 위의 모든 점은 동일한 시작점(깨끗한 데이터)에 대응한다. 이 '자기 일관성(self-consistency)' 성질을 만족하는 함수 f를 학습하면, 임의의 노이즈 수준에서 시작해 한 번의 함수 평가만으로 깨끗한 이미지를 직접 얻을 수 있다. 학습 방법은 두 가지가 있다: (1) Consistency Distillation(CD)은 사전학습된 확산 모델의 ODE 궤적에서 인접한 두 점이 같은 출력을 생성하도록 학습하고, (2) Consistency Training(CT)은 사전학습 없이 직접 일관성 함수를 학습한다. 추가 스텝을 사용하면 품질을 점진적으로 높일 수도 있다.

방법론

일관성 함수 f_θ(x_t, t)는 경계 조건 f(x_ε, ε) = x_ε를 만족하도록 파라미터화한다. CD에서는 ODE 솔버로 x_{t_{n+1}}에서 x_{t_n}으로의 한 스텝을 수행한 뒤, f_θ(x_{t_{n+1}}, t_{n+1}) ≈ f_{θ^-}(x_{t_n}, t_n)이 되도록 학습한다(θ^-는 EMA). CT에서는 확산 과정의 점수 함수를 추정하여 유사한 목적으로 학습하되 사전학습 모델이 불필요하다. 학습 스케줄은 점진적으로 인접 타임스텝 간격을 줄이는 커리큘럼을 사용한다.

주요 결과

CIFAR-10에서 단일 스텝 생성으로 FID 3.55를 달성했으며, 이는 당시 단일 스텝 생성 모델 중 최고 수준이었다. 2스텝으로는 2.93 FID까지 개선되었다. ImageNet 64x64에서도 경쟁력 있는 결과를 보였으며, Consistency Training이 증류 없이도 합리적인 성능을 달성함을 입증했다.

임팩트

확산 모델의 반복적 샘플링이라는 근본적 한계를 극복하는 새로운 방향을 제시했다. 단일 스텝 또는 소수 스텝 생성이라는 목표에 가장 근접한 접근법으로, 실시간 이미지 생성 응용의 가능성을 열었다. Improved Consistency Training, Latent Consistency Models 등으로 빠르게 발전하며, Stable Diffusion의 실시간 생성(LCM-LoRA 등)에 직접적으로 기여하고 있다. 확산 모델과 GAN의 장점을 결합하려는 연구 방향의 중요한 이정표이다.

관련 Foundation 논문

관련 논문