ICASSP 2018Citations: 5,000+

Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions

멜 스펙트로그램 예측 기반 WaveNet 조건부 자연 TTS 합성

Jonathan Shen, Ruoming Pang, Ron J. Weiss, et al. (2018)

어텐션 기반 시퀀스-투-시퀀스 모델로 텍스트에서 멜 스펙트로그램을 생성하고, 수정된 WaveNet 보코더로 파형을 합성하여 인간에 근접한 음성 품질을 달성한 TTS 시스템.

배경

WaveNet이 고품질 음성 합성의 가능성을 보여주었지만, 텍스트에서 언어적 특징을 추출하여 WaveNet에 입력하는 복잡한 파이프라인이 필요했다. Tacotron 1세대가 시퀀스-투-시퀀스 접근을 시도했으나, 음성 품질과 강건성에 개선의 여지가 있었다. 언어학적 전처리를 최소화하면서 인간 수준의 음질에 도달하는 end-to-end 시스템이 필요했다.

핵심 아이디어

Tacotron 2는 두 단계의 생성 파이프라인을 사용한다. 첫째, 어텐션 기반 시퀀스-투-시퀀스 모델이 문자(character) 시퀀스에서 멜 스펙트로그램을 생성한다. 인코더는 문자 임베딩을 3층 CNN과 양방향 LSTM으로 처리하고, 디코더는 위치 민감(location-sensitive) 어텐션으로 단조 정렬을 유도한다. 둘째, 수정된 WaveNet이 멜 스펙트로그램을 조건으로 원시 파형을 합성한다. 핵심은 복잡한 언어학적 전처리 없이 문자에서 직접 자연스러운 음성을 생성한다는 것이다.

방법론

인코더의 3층 CNN(각 512 필터, 커널 5)과 양방향 LSTM(512 유닛)으로 텍스트를 인코딩한다. 디코더는 2층 LSTM과 위치 민감 어텐션으로 80채널 멜 스펙트로그램을 프레임 단위로 생성한다. 이후 30층 수정 WaveNet이 24kHz 파형을 합성한다. 내부 미국 영어 데이터셋(24.6시간)으로 학습했다.

주요 결과

MOS 평가에서 4.53점을 기록하여 전문 녹음(4.58)에 근접했으며, 기존 파라메트릭 TTS와 연결 합성 시스템을 크게 앞섰다. 합성음과 실제 음성의 차이가 통계적으로 유의미하지 않은 수준에 도달했다.

임팩트

신경망 TTS의 사실상 표준 아키텍처가 되어, 이후 대부분의 TTS 연구가 Tacotron 2를 기반선(baseline)으로 채택했다. Google Assistant, Google Cloud TTS 등 상용 서비스에 직접 적용되었으며, FastSpeech, VITS 등 비자기회귀 TTS 연구의 출발점이 되었다.

관련 Foundation 논문

관련 논문