A Style-Based Generator Architecture for Generative Adversarial Networks
생성적 적대 신경망을 위한 스타일 기반 생성기 아키텍처
Tero Karras, Samuli Laine, Timo Aila (2019)
매핑 네트워크와 적응적 인스턴스 정규화를 통해 스타일 기반으로 이미지를 계층적으로 제어 생성하는 GAN 아키텍처이다.
배경
기존 GAN 생성자는 잠재 벡터 z를 직접 입력으로 받아 이미지를 생성했지만, 잠재 공간의 얽힘(entanglement) 때문에 생성 이미지의 특정 속성만 독립적으로 제어하기 어려웠다. 고해상도 얼굴 생성의 품질은 꾸준히 향상되고 있었지만, 생성 과정에 대한 직관적 이해와 세밀한 제어가 부족했다.
핵심 아이디어
StyleGAN은 두 가지 핵심 혁신을 도입한다. 첫째, 8층 MLP로 구성된 매핑 네트워크가 잠재 벡터 z를 중간 잠재 공간 W로 변환하여 얽힘을 해소한다. 둘째, W 공간의 벡터를 적응적 인스턴스 정규화(AdaIN)를 통해 생성자의 각 레이어에 주입하여 서로 다른 해상도에서 서로 다른 시각적 속성(포즈, 얼굴형, 피부색, 머리카락 질감 등)을 제어한다. 또한 확률적 변동을 위한 노이즈 입력을 각 레이어에 추가하여 모공, 머리카락 배치 등 미세한 디테일의 다양성을 확보한다. 전통적 입력 레이어를 학습 가능한 상수로 대체한 것도 특징적이다.
방법론
생성자의 합성 네트워크는 4x4부터 1024x1024까지 점진적으로 해상도를 키운다. 각 해상도의 합성곱 레이어마다 매핑 네트워크 출력으로부터 계산된 스케일/바이어스가 AdaIN으로 적용된다. 스타일 믹싱(style mixing) 정규화를 통해 서로 다른 잠재 벡터의 스타일을 섞어 레이어 간 상관관계를 줄인다. Progressive growing 기반으로 학습한다.
주요 결과
FFHQ 데이터셋에서 FID 4.40을 달성하며 당시 최고 수준의 얼굴 생성 품질을 보였다. Perceptual Path Length, Linear Separability 등 새로운 평가 지표를 제안하여 잠재 공간의 품질을 정량적으로 측정했다. 스타일 믹싱을 통한 직관적인 속성 제어 능력을 시각적으로 입증했다.
임팩트
고품질 이미지 생성의 새로운 기준을 세웠으며, StyleGAN2, StyleGAN3 등으로 발전하며 GAN 기반 생성 모델의 정점을 이루었다. 디핑페이크 논쟁을 촉발하는 등 사회적 영향도 컸으며, 이미지 편집, 도메인 적응, 데이터 증강 등 다양한 응용에 활용되었다. FFHQ 데이터셋은 얼굴 생성 연구의 표준 벤치마크가 되었다.