ICLR 2023Citations: 1,000+

Flow Matching for Generative Modeling

생성 모델링을 위한 플로우 매칭

Yaron Lipman, Ricky T. Q. Chen, Heli Ben-Hamu, Maximilian Nickel (2023)

확률 경로를 따라 노이즈를 데이터로 변환하는 연속 정규화 흐름을 시뮬레이션 없이 학습하는 간결하고 효율적인 생성 모델링 프레임워크이다.

배경

확산 모델(DDPM)은 높은 생성 품질을 보였지만, 이론적으로는 확률적 미분방정식(SDE)에 기반하여 복잡하고, 수백 단계의 반복적 샘플링으로 인해 느렸다. 연속 정규화 흐름(CNF)은 결정론적 ODE 기반으로 우아하지만, 기존 학습 방법은 ODE 시뮬레이션이 필요하여 계산 비용이 높고 확장성에 한계가 있었다.

핵심 아이디어

플로우 매칭은 CNF를 시뮬레이션 없이(simulation-free) 학습하는 프레임워크를 제안한다. 핵심 아이디어는 시간에 따라 노이즈 분포에서 데이터 분포로 이동하는 확률 경로(probability path)를 정의하고, 이 경로를 생성하는 벡터장(vector field)을 신경망으로 회귀하는 것이다. 조건부 플로우 매칭(Conditional Flow Matching)을 통해 개별 데이터 포인트를 조건으로 하는 간단한 벡터장을 학습 목표로 사용함으로써, ODE를 풀 필요 없이 단순한 MSE 손실로 학습할 수 있다. 특히 직선 경로(straight paths)를 사용하는 최적 수송 조건부 플로우 매칭은 경로가 가장 짧고 교차하지 않아 효율적인 샘플링이 가능하다.

방법론

시간 t에서의 조건부 확률 경로를 가우시안으로 정의하고(예: x_t = (1-t)x_0 + t*x_1, x_0은 노이즈, x_1은 데이터), 이에 대응하는 조건부 벡터장 u_t(x|x_1) = x_1 - x_0을 계산한다. 신경망 v_θ(t, x)가 이 벡터장을 근사하도록 MSE 손실로 학습한다. 샘플링 시에는 노이즈에서 시작하여 학습된 벡터장을 따라 ODE를 적분한다.

주요 결과

ImageNet에서 확산 모델과 동등하거나 우수한 FID를 달성하면서, 더 적은 샘플링 스텝(약 100~250 NFE)으로 고품질 이미지를 생성했다. 직선 경로가 곡선 경로보다 일관되게 우수한 성능을 보였으며, 학습 안정성도 확산 모델에 비해 개선되었다.

임팩트

생성 모델링의 새로운 이론적 프레임워크를 확립하여 확산 모델의 대안으로 급부상했다. Meta의 후속 연구를 통해 Stable Diffusion 3, Flux 등 차세대 이미지 생성 모델의 핵심 학습 방법으로 채택되었다. 단순한 수학적 정식화와 유연한 확장성으로 비디오, 오디오, 단백질 구조 생성 등 다양한 분야로 빠르게 확산되고 있다.

관련 Foundation 논문

관련 논문