arXivCitations: 10,000+

WaveNet: A Generative Model for Raw Audio

WaveNet: 원시 오디오를 위한 생성 모델

Aäron van den Oord, Sander Dieleman, Heiga Zen, et al. (2016)

팽창 인과 컨볼루션(dilated causal convolutions)으로 원시 오디오 파형을 직접 자기회귀 생성하여, 기존 TTS를 압도하는 자연스러운 음성을 합성한 논문.

배경

기존 음성 합성(TTS)은 연결 합성(concatenative)이나 파라메트릭 합성에 의존했으며, 생성된 음성이 기계적이고 부자연스러웠다. 원시 오디오는 초당 16,000~48,000 샘플의 매우 긴 시퀀스로, 이를 직접 모델링하는 것은 시퀀스 길이와 계산량 면에서 극도로 도전적이었다.

핵심 아이디어

WaveNet은 원시 오디오 파형의 각 샘플을 이전 샘플들로부터 자기회귀적으로 예측하는 확률 모델이다. 핵심 아키텍처는 팽창 인과 컨볼루션으로, 미래 정보를 사용하지 않으면서(인과) 지수적으로 증가하는 수용장(receptive field)을 확보한다(팽창). μ-law 압축으로 16비트 오디오를 256 카테고리로 양자화하고, 게이트 활성화와 잔차 연결을 사용한다. 텍스트나 화자 정보를 조건으로 부여하여 TTS와 다화자 합성이 가능하다.

방법론

30층의 팽창 인과 컨볼루션 스택으로 구성하며, 팽창 계수를 1, 2, 4, ..., 512로 기하급수적으로 증가시켜 수만 샘플의 수용장을 확보한다. 소프트맥스 출력으로 다음 샘플의 분포를 예측하고, 학습 시 teacher-forcing을 사용한다.

주요 결과

MOS(Mean Opinion Score) 평가에서 영어 4.21, 중국어 4.08로 기존 최고 시스템을 큰 차이로 능가했다. 음악 생성에서도 현실적인 오디오를 생성했으며, 화자 조건화를 통해 다양한 목소리를 합성할 수 있었다.

임팩트

딥러닝 기반 음성 합성의 시대를 열어, 이후 모든 신경망 TTS 시스템의 기반이 되었다. Google Assistant에 실제 적용되어 상용화되었으며, Tacotron, Parallel WaveNet 등 후속 연구를 촉발했다. 오디오 생성 AI 분야 전체의 출발점이 된 기념비적 논문이다.

관련 Foundation 논문

관련 논문