NeurIPS 2022 WorkshopCitations: 5,000+

Classifier-Free Diffusion Guidance

분류기 없는 확산 가이던스

Jonathan Ho, Tim Salimans (2022)

학습 시 조건 입력을 확률적으로 드롭아웃하고, 추론 시 조건부/비조건부 예측을 혼합하여 별도 분류기 없이도 생성 품질과 조건 부합도를 자유롭게 조절할 수 있는 기법이다.

배경

확산 모델에서 텍스트 등 조건에 충실한 이미지를 생성하기 위해 분류기 가이던스(classifier guidance)가 사용되었지만, 별도의 노이즈-인식(noise-aware) 분류기를 학습해야 하는 번거로움이 있었다. 이 분류기는 확산 모델과 별도로 학습되어야 하며, 생성 과정에서 분류기의 기울기가 불안정하거나 적대적 예제를 유발할 수 있는 문제도 있었다.

핵심 아이디어

Classifier-Free Guidance(CFG)는 별도 분류기 없이 확산 모델 자체만으로 가이던스 효과를 달성하는 간결한 방법을 제안한다. 학습 시 조건 입력 c를 일정 확률(예: 10~20%)로 빈 조건(null condition)으로 대체하여, 하나의 모델이 조건부 예측 ε_θ(x_t, c)와 비조건부 예측 ε_θ(x_t, ∅)를 모두 학습한다. 추론 시에는 가이던스 스케일 w를 사용하여 조건부 방향으로 비조건부 예측을 밀어낸다: ε̃ = ε_θ(x_t, ∅) + w · (ε_θ(x_t, c) - ε_θ(x_t, ∅)). w=1이면 표준 조건부 생성, w>1이면 조건 부합도가 높아지고(다양성은 감소), w<1이면 반대 효과를 준다.

방법론

기존 조건부 확산 모델의 학습 파이프라인을 거의 변경하지 않고, 조건 드롭아웃만 추가한다. 텍스트 조건의 경우 CLIP 텍스트 임베딩을 빈 문자열 임베딩으로 대체하여 비조건부 학습을 수행한다. 추론 시 각 노이즈 제거 스텝에서 조건부와 비조건부 예측을 모두 계산하고 선형 외삽(extrapolation)으로 결합한다. 이로 인해 추론 비용이 약 2배 증가하지만, 배치 처리로 효율화가 가능하다.

주요 결과

ImageNet 클래스 조건부 생성에서 classifier guidance와 동등하거나 우수한 FID-IS 트레이드오프를 달성했다. 가이던스 스케일 w의 조절만으로 다양성과 충실도 사이의 연속적 트레이드오프가 가능함을 보였으며, 별도 분류기 학습 없이 더 안정적이고 유연한 결과를 얻었다.

임팩트

현대 확산 모델의 사실상 표준 가이던스 기법이 되었다. DALL-E 2, Stable Diffusion, Imagen, Midjourney 등 거의 모든 텍스트-이미지 확산 모델이 CFG를 핵심 구성 요소로 사용한다. 가이던스 스케일은 사용자가 생성 결과를 직관적으로 제어할 수 있는 중요한 하이퍼파라미터가 되었으며, 텍스트 이외에도 이미지, 오디오 등 다양한 조건부 생성에 범용적으로 적용되고 있다.

관련 Foundation 논문

관련 논문