Image-to-Image Translation with Conditional Adversarial Networks
조건부 적대적 네트워크를 이용한 이미지-이미지 변환
Phillip Isola, Jun-Yan Zhu, Tinghui Zhou, Alexei A. Efros (2017)
조건부 GAN 프레임워크로 쌍을 이루는(paired) 이미지 간 변환을 학습하여, 엣지→사진, 낮→밤, 스케치→실사 등 다양한 이미지 변환을 범용적으로 수행하는 모델이다.
배경
이미지 대 이미지 변환(image-to-image translation)은 컴퓨터 비전의 오래된 과제로, 각 변환 태스크(컬러화, 초해상도, 시맨틱 분할 등)마다 별도의 전문 알고리즘을 설계해야 했다. CNN 기반 방법들은 L1/L2 손실만 사용하면 흐릿한(blurry) 결과를 생성하는 문제가 있었으며, GAN이 사실적 이미지를 생성할 수 있음이 알려졌지만 조건부 생성에 대한 체계적 프레임워크가 부재했다.
핵심 아이디어
pix2pix는 조건부 GAN을 이미지-이미지 변환의 범용 프레임워크로 제안한다. 생성자는 입력 이미지를 받아 대응하는 출력 이미지를 생성하고, 판별자는 입력-출력 쌍이 진짜인지 가짜인지 판별한다. 핵심 설계로 (1) U-Net 기반 생성자가 스킵 연결을 통해 저수준 정보를 보존하고, (2) PatchGAN 판별자가 이미지의 NxN 패치 단위로 진위를 판별하여 고주파 텍스처의 사실감을 향상시킨다. cGAN 손실에 L1 손실을 결합하여 전체 구조의 정확성과 로컬 사실감을 동시에 확보한다.
방법론
생성자는 인코더-디코더 구조에 U-Net 스킵 연결을 추가한 아키텍처를 사용한다. PatchGAN 판별자는 70x70 수용장(receptive field)의 패치 단위로 진위를 판별하며, 이는 전체 이미지 판별자보다 적은 파라미터로 더 선명한 결과를 생성한다. 목적 함수는 cGAN 손실과 L1 재구성 손실의 가중 합이다. 학습 시 드롭아웃을 노이즈 소스로 활용한다.
주요 결과
도시 풍경 라벨↔사진, 건물 파사드, 지도↔항공사진, 흑백→컬러, 엣지→사진, 낮→밤 등 다양한 변환 태스크에서 사실적인 결과를 생성했다. AMT 실험에서 사람 평가자의 상당수가 생성 이미지를 실제로 오인했으며, 하나의 동일한 아키텍처와 목적 함수로 여러 태스크를 처리할 수 있음을 입증했다.
임팩트
이미지-이미지 변환의 범용 프레임워크를 확립하여 해당 분야의 표준이 되었다. CycleGAN, SPADE, GauGAN 등 수많은 후속 연구의 기반이 되었으며, PatchGAN 판별자는 이후 대부분의 이미지 생성/변환 모델에서 채택되었다. 예술, 디자인, 건축, 의료 영상 등 실용적 응용에서도 널리 사용되었다.