arXivCitations: 1,000+

Neural Codec Language Models are Zero-Shot Text to Speech Synthesizers

신경 코덱 언어 모델은 제로샷 텍스트 음성 합성기이다

Chengyi Wang, Sanyuan Chen, Yu Wu, et al. (2023)

TTS를 신경 오디오 코덱 토큰에 대한 언어 모델링 문제로 재정의하여, 단 3초의 음성 샘플만으로 화자의 목소리를 복제하는 제로샷 TTS를 달성한 논문.

배경

기존 TTS 시스템은 새로운 화자에 적응하기 위해 해당 화자의 상당한 녹음 데이터와 미세조정이 필요했다. 제로샷 TTS(한 번도 학습하지 않은 화자의 음성 합성)는 극도로 어려운 과제였으며, 특히 음색, 감정, 운율 등 화자 특성의 충실한 재현이 도전적이었다.

핵심 아이디어

VALL-E는 TTS를 조건부 언어 모델링으로 재정의한다. EnCodec 같은 신경 오디오 코덱이 음성을 이산 토큰 시퀀스로 변환하면, 이를 '오디오 언어'로 취급하여 GPT 스타일의 자기회귀 모델링을 적용한다. 코덱의 다중 양자화 레벨을 활용하여, 첫 번째 레벨은 자기회귀(AR) 모델로, 나머지는 비자기회귀(NAR) 모델로 생성하는 계층적 구조를 사용한다. 3초의 프롬프트 음성을 접두사로 제공하면, 모델이 해당 화자의 특성을 유지하며 임의의 텍스트를 음성으로 변환한다.

방법론

60,000시간의 LibriLight 데이터에서 EnCodec 토큰을 추출하여 학습한다. 텍스트 음소 시퀀스와 3초 프롬프트의 코덱 토큰을 조건으로, AR 트랜스포머가 첫 번째 코덱 레벨을 생성하고, NAR 트랜스포머가 나머지 7개 레벨을 동시에 생성한다.

주요 결과

VALL-E는 기존 최고 TTS 시스템 대비 화자 유사도에서 큰 개선을 보였으며, 음성 자연스러움도 동등 수준이었다. 단 3초의 프롬프트로 화자의 감정, 음향 환경까지 재현할 수 있었다.

임팩트

TTS 패러다임을 코덱 기반 언어 모델링으로 전환한 획기적 연구이다. VALL-E X(다국어), VALL-E 2 등 후속 연구를 촉발했으며, 음성 합성의 품질과 유연성을 크게 높였다. 동시에 딥페이크 음성 등 잠재적 오용 위험에 대한 사회적 논의도 촉진했다.

관련 Foundation 논문

관련 논문