Wasserstein GAN
바서슈타인 GAN
Martin Arjovsky, Soumith Chintala, Léon Bottou (2017)
GAN의 판별자를 크리틱(critic)으로 대체하고 바서슈타인 거리를 최적화하여 모드 붕괴와 학습 불안정성을 근본적으로 해결한 모델이다.
배경
기존 GAN은 생성자와 판별자 사이의 미니맥스 게임을 통해 학습하지만, Jensen-Shannon 발산 기반의 목적 함수는 여러 근본적 문제를 야기했다. 모드 붕괴(mode collapse)로 생성 다양성이 떨어지고, 판별자가 너무 잘 학습되면 생성자의 기울기가 소실되며, 학습 안정성과 생성 품질 사이의 균형을 맞추기 매우 어려웠다.
핵심 아이디어
WGAN은 JS 발산 대신 Earth Mover's Distance(바서슈타인-1 거리)를 목적 함수로 사용한다. 이 거리는 두 분포의 지지(support)가 겹치지 않아도 의미 있는 기울기를 제공하므로, 생성자가 안정적으로 학습할 수 있다. 판별자를 1-립시츠(1-Lipschitz) 함수로 제한하기 위해 가중치 클리핑을 적용하며, 이를 통해 크리틱이라 불리는 새로운 역할을 수행하게 된다. 크리틱 손실값이 생성 품질과 직접적으로 상관관계를 가져, 학습 진행 상황을 모니터링할 수 있게 된 것도 큰 장점이다.
방법론
크리틱은 실제와 생성 데이터 간 바서슈타인 거리를 추정하도록 학습되며, 생성자는 이 거리를 줄이도록 학습된다. 크리틱의 가중치를 [-c, c] 범위로 클리핑하여 립시츠 제약을 근사한다. 크리틱을 생성자보다 더 많이(5:1 비율) 업데이트하여 거리 추정의 정확성을 보장한다. 옵티마이저는 RMSProp를 사용하며, 모멘텀 기반 옵티마이저는 불안정성을 유발할 수 있어 피한다.
주요 결과
기존 GAN 대비 학습이 훨씬 안정적이며, 모드 붕괴 현상이 크게 줄었다. 크리틱 손실과 생성 품질 사이의 상관관계가 명확하여 하이퍼파라미터 탐색이 용이해졌다. 후속 연구인 WGAN-GP에서 가중치 클리핑을 그래디언트 페널티로 대체하여 성능을 더욱 개선했다.
임팩트
GAN 학습의 이론적 이해를 크게 발전시키고, 최적 수송(Optimal Transport) 이론과 생성 모델링을 연결하는 중요한 가교 역할을 했다. 이후 거의 모든 GAN 학습에서 바서슈타인 거리 기반 목적 함수나 그 변형이 활용되었으며, WGAN-GP, Spectral Normalization 등 후속 안정화 기법의 기반이 되었다.