AI Paper Research

계층적 벡터 양자화 잠재 공간을 통해 글로벌 구조와 로컬 디테일을 분리하여 GAN에 필적하는 고해상도 이미지를 생성하는 자기회귀 모델이다.

배경

VAE 계열 모델은 학습이 안정적이고 잠재 공간이 잘 구조화되지만, 생성 이미지가 흐릿한 문제로 인해 GAN에 비해 시각적 품질이 크게 떨어졌다. VQ-VAE(벡터 양자화 VAE)가 이산 잠재 표현으로 이 문제를 완화했지만, 단일 스케일의 잠재 코드로는 고해상도에서의 복잡한 구조를 충분히 표현하기 어려웠다.

핵심 아이디어

VQ-VAE-2는 계층적(hierarchical) 벡터 양자화를 도입하여 다중 해상도에서 잠재 코드를 학습한다. 상위 레벨의 잠재 맵은 낮은 해상도에서 이미지의 전체적 구조(포즈, 형태, 레이아웃)를 포착하고, 하위 레벨은 높은 해상도에서 세밀한 텍스처와 디테일을 인코딩한다. 생성 시에는 상위→하위 순서로 자기회귀 모델(PixelCNN)을 사용하여 잠재 코드를 샘플링한 뒤, 디코더로 이미지를 재구성한다. 이 2단계 접근법(잠재 코드 학습 + 잠재 공간에서의 자기회귀 생성)은 이후 LDM(Latent Diffusion Models)의 핵심 아이디어와 직결된다.

방법론

인코더는 입력 이미지를 두 단계의 잠재 맵(예: 32x32 상위, 64x64 하위)으로 인코딩하며, 각 레벨에서 가장 가까운 코드북 벡터로 양자화한다. 하위 레벨은 상위 레벨의 정보를 조건으로 받는다. 디코더는 양자화된 잠재 맵에서 이미지를 복원한다. 생성 단계에서는 대형 PixelCNN을 상위/하위 잠재 맵에 대해 각각 학습하고, 거부 샘플링(rejection sampling)이나 분류기를 사용하여 생성 품질을 높인다.

주요 결과

256x256 해상도의 얼굴(FFHQ), ImageNet 클래스 조건부 생성에서 BigGAN에 필적하는 시각적 품질과 다양성을 보였다. 인간 평가에서 참가자의 상당수가 VQ-VAE-2 생성 이미지를 실제 사진으로 판단했으며, likelihood 기반 모델이 GAN과 경쟁할 수 있음을 최초로 입증했다.

임팩트

우도 기반(likelihood-based) 생성 모델이 시각적 품질에서 GAN과 경쟁할 수 있다는 패러다임 전환을 이끌었다. 잠재 공간에서의 생성이라는 2단계 접근법은 LDM/Stable Diffusion의 직접적 선구자가 되었으며, 벡터 양자화 코드북 개념은 DALL-E, Parti 등 이후 텍스트-이미지 모델에서도 핵심적으로 활용되었다.

AI Paper Research

Generating Diverse High-Fidelity Images with VQ-VAE-2

배경

핵심 아이디어

방법론

주요 결과

임팩트

관련 Foundation 논문

관련 논문