ICLR 2014Citations: 25,000+
Auto-Encoding Variational Bayes
변분 오토인코더
Diederik P. Kingma, Max Welling (2013)
한줄 요약
변분 추론(Variational Inference) 과 신경망 기반 인코더-디코더를 결합하여, 복잡한 확률적 생성 모델을 효율적으로 학습하고 샘플링할 수 있는 프레임워크를 제안한 논문.
배경 & 동기
확률적 생성 모델의 핵심은 데이터의 잠재 변수(latent variable) 모델 를 학습하는 것이다. 그러나:
- 사후 확률 계산 불가: 에서 증거(evidence) 가 계산 불가능(intractable)
- EM 알고리즘: E-step에서 사후 확률이 필요하므로 적용 어려움
- MCMC 기반 방법: 수렴이 느리고 대규모 데이터에 비효율적
- 대규모 데이터셋에서 효율적으로 학습하면서, 의미 있는 잠재 공간을 형성하는 방법이 필요
핵심 아이디어변분 오토인코더 (Variational Auto-Encoder)
VAE의 핵심 아이디어는 두 가지다:
- 인식 모델(Recognition Model): 계산 불가능한 사후 확률 를 신경망 로 근사. 이 인코더가 데이터를 잠재 공간으로 매핑
- Reparameterization Trick: 에서의 샘플링을 미분 가능하게 변환. , 로 표현하여 역전파 가능
이를 통해 인코더(데이터 → 잠재 변수)와 디코더(잠재 변수 → 데이터)를 동시에 end-to-end로 학습할 수 있다.
수식Evidence Lower Bound (ELBO)
여기서:
- : 정규화 항 — 인코더 분포를 사전 분포(보통 )에 가깝게 유지
- : 복원 항 — 잠재 변수로부터 원래 데이터를 잘 복원
- 이 ELBO를 최대화하는 것이 를 최대화하는 것의 하한(lower bound)
수식Reparameterization Trick
인코더 에서 직접 샘플링하면 역전파 불가. 대신:
여기서:
- , : 인코더 신경망의 출력
- : 표준 정규분포에서 샘플링 (파라미터와 무관)
- : 원소별 곱
이 트릭으로 샘플링 과정을 결정적 변환으로 바꿔 gradient가 로 흐를 수 있게 한다.
수식가우시안 인코더의 KL Divergence (닫힌 해)
여기서 는 잠재 변수의 차원. 가우시안 가정 하에서 KL divergence를 해석적으로 계산 가능.
실험 결과
| 데이터셋 | 모델 | Marginal Likelihood (NLL) | |---|---|---| | MNIST | Wake-Sleep | ~86.35 | | MNIST | VAE | ~86.76 | | Frey Face | Wake-Sleep | ~1361 | | Frey Face | VAE | ~1324 |
- MNIST, Frey Face 데이터셋에서 기존 변분 방법(Wake-Sleep 등) 대비 동등 또는 우수한 성능
- 잠재 공간에서의 연속적이고 의미 있는 보간(interpolation) 이 가능함을 시각적으로 시연
- 학습된 잠재 공간이 매끄러운(smooth) 매니폴드를 형성 — 숫자 스타일의 연속적 변환 가능
임팩트
확률적 생성 모델의 핵심 프레임워크를 확립한 논문.
- GAN과 함께 현대 생성 모델의 양대 축을 형성 (VAE: 확률론적 / GAN: 적대적)
- Reparameterization Trick은 확률적 계산 그래프 학습의 표준 기법이 됨
- VQ-VAE, -VAE, CVAE 등 수많은 후속 변형 모델의 기반
- Diffusion Model의 이론적 뿌리: DDPM의 변분 하한(VLB) 목적 함수가 VAE의 ELBO에서 직접 파생
- Stable Diffusion의 Latent Diffusion Model은 VAE 인코더로 잠재 공간을 만든 후 그 위에서 확산
- 약물 발견, 분자 생성, 음악 생성, 이상 탐지 등 폭넓은 응용
- 공저자 Kingma는 Adam optimizer(인용 20만+)의 저자이기도 함
- 인용 수 2만 5천회 이상