Generating Diverse High-Fidelity Images with VQ-VAE-2
VQ-VAE-2를 이용한 다양하고 고품질의 이미지 생성
Ali Razavi, Aaron van den Oord, Oriol Vinyals (2019)
계층적 벡터 양자화 잠재 공간을 통해 글로벌 구조와 로컬 디테일을 분리하여 GAN에 필적하는 고해상도 이미지를 생성하는 자기회귀 모델이다.
배경
VAE 계열 모델은 학습이 안정적이고 잠재 공간이 잘 구조화되지만, 생성 이미지가 흐릿한 문제로 인해 GAN에 비해 시각적 품질이 크게 떨어졌다. VQ-VAE(벡터 양자화 VAE)가 이산 잠재 표현으로 이 문제를 완화했지만, 단일 스케일의 잠재 코드로는 고해상도에서의 복잡한 구조를 충분히 표현하기 어려웠다.
핵심 아이디어
VQ-VAE-2는 계층적(hierarchical) 벡터 양자화를 도입하여 다중 해상도에서 잠재 코드를 학습한다. 상위 레벨의 잠재 맵은 낮은 해상도에서 이미지의 전체적 구조(포즈, 형태, 레이아웃)를 포착하고, 하위 레벨은 높은 해상도에서 세밀한 텍스처와 디테일을 인코딩한다. 생성 시에는 상위→하위 순서로 자기회귀 모델(PixelCNN)을 사용하여 잠재 코드를 샘플링한 뒤, 디코더로 이미지를 재구성한다. 이 2단계 접근법(잠재 코드 학습 + 잠재 공간에서의 자기회귀 생성)은 이후 LDM(Latent Diffusion Models)의 핵심 아이디어와 직결된다.
방법론
인코더는 입력 이미지를 두 단계의 잠재 맵(예: 32x32 상위, 64x64 하위)으로 인코딩하며, 각 레벨에서 가장 가까운 코드북 벡터로 양자화한다. 하위 레벨은 상위 레벨의 정보를 조건으로 받는다. 디코더는 양자화된 잠재 맵에서 이미지를 복원한다. 생성 단계에서는 대형 PixelCNN을 상위/하위 잠재 맵에 대해 각각 학습하고, 거부 샘플링(rejection sampling)이나 분류기를 사용하여 생성 품질을 높인다.
주요 결과
256x256 해상도의 얼굴(FFHQ), ImageNet 클래스 조건부 생성에서 BigGAN에 필적하는 시각적 품질과 다양성을 보였다. 인간 평가에서 참가자의 상당수가 VQ-VAE-2 생성 이미지를 실제 사진으로 판단했으며, likelihood 기반 모델이 GAN과 경쟁할 수 있음을 최초로 입증했다.
임팩트
우도 기반(likelihood-based) 생성 모델이 시각적 품질에서 GAN과 경쟁할 수 있다는 패러다임 전환을 이끌었다. 잠재 공간에서의 생성이라는 2단계 접근법은 LDM/Stable Diffusion의 직접적 선구자가 되었으며, 벡터 양자화 코드북 개념은 DALL-E, Parti 등 이후 텍스트-이미지 모델에서도 핵심적으로 활용되었다.