ICCV 2017Citations: 18,000+

Unpaired Image-to-Image Translation using Cycle-Consistent Adversarial Networks

순환 일관성 적대적 네트워크를 이용한 비짝 이미지-이미지 변환

Jun-Yan Zhu, Taesung Park, Phillip Isola, Alexei A. Efros (2017)

쌍을 이루지 않는(unpaired) 두 이미지 도메인 간 변환을 순환 일관성 손실(cycle-consistency loss)을 통해 학습하여, 짝지어진 학습 데이터 없이도 스타일 변환을 수행하는 모델이다.

배경

pix2pix 등 기존 이미지 변환 모델은 입출력이 정확히 대응하는 쌍(paired) 데이터를 요구했지만, 실제로 이러한 데이터를 구하기는 매우 어렵거나 불가능한 경우가 많았다(예: 모네 그림↔실제 사진, 얼룩말↔말). 쌍이 없는 두 도메인의 이미지 집합만으로 의미 있는 매핑을 학습하는 것은 극도로 제약이 부족한(underconstrained) 문제였다.

핵심 아이디어

CycleGAN은 순환 일관성(cycle consistency)이라는 우아한 제약 조건을 도입하여 쌍 없는 변환 문제를 해결한다. 도메인 X에서 Y로 변환하는 생성자 G와 Y에서 X로 변환하는 생성자 F를 동시에 학습하며, 핵심 제약은 X→Y→X (또는 Y→X→Y)로 왕복 변환했을 때 원본이 복원되어야 한다는 것이다 (F(G(x)) ≈ x, G(F(y)) ≈ y). 이 순환 일관성 손실은 쌍 데이터 없이도 두 변환이 서로의 역함수에 가까워지도록 강제하여, 의미 있는 도메인 간 매핑을 학습하게 한다. 각 도메인에 대한 적대적 손실과 결합하여 사실적인 변환 결과를 생성한다.

방법론

두 개의 생성자(G: X→Y, F: Y→X)와 두 개의 판별자(D_X, D_Y)를 학습한다. 전체 목적 함수는 양방향 적대적 손실과 순환 일관성 손실(L1 거리)의 합이다. 생성자는 ResNet 기반 아키텍처(9개 잔차 블록)를 사용하고, 판별자는 PatchGAN(70x70)을 사용한다. 선택적으로 정체성 손실(identity loss)을 추가하여 색상 보존을 개선한다.

주요 결과

말↔얼룩말, 사과↔오렌지, 사진↔모네/반 고흐/세잔/우키요에, 여름↔겨울 등 다양한 비짝(unpaired) 변환 태스크에서 시각적으로 설득력 있는 결과를 생성했다. pix2pix(쌍 데이터 사용)에 비해 약간 성능이 낮지만, 쌍 데이터 없이 이를 달성한 점에서 큰 의의가 있다.

임팩트

쌍 없는 이미지 변환이라는 새로운 패러다임을 열어 비지도 도메인 적응, 스타일 전이, 데이터 증강 등 광범위한 응용을 가능하게 했다. 순환 일관성 개념은 이후 비디오, 3D, 텍스트 등 다른 모달리티의 비지도 변환에도 적용되었으며, StarGAN, MUNIT, FUNIT 등 다중 도메인 변환 연구로 발전하는 토대가 되었다. 예술, 사진 편집, 시뮬레이션-실제 도메인 갭 해소 등에서 널리 활용되고 있다.

관련 Foundation 논문

관련 논문