AI Paper Research

GPT 스타일의 자기회귀 트랜스포머로 텍스트에서 음성, 음악, 효과음까지 다양한 오디오를 다국어로 생성하는 범용 텍스트-투-오디오 모델.

배경

기존 TTS 시스템은 깨끗한 음성 합성에 특화되어 있었으며, 웃음, 한숨, 음악 등 비언어적 오디오는 별도의 시스템이 필요했다. VALL-E가 코덱 기반 음성 합성의 가능성을 보여주었지만, 음성 외의 오디오 유형을 통합 생성하는 모델은 부재했다. 단일 모델에서 다양한 오디오 유형을 다국어로 생성하는 것이 도전적 과제였다.

핵심 아이디어

Bark는 GPT 아키텍처를 오디오 토큰 생성에 적용하여, 텍스트에서 다양한 유형의 오디오를 생성한다. 3단계 계층 구조를 사용하는데, (1) 시맨틱 모델이 텍스트에서 의미 토큰을 생성하고, (2) 거친 음향 모델이 의미 토큰에서 EnCodec의 처음 2개 코드북을 생성하며, (3) 세밀 음향 모델이 나머지 6개 코드북을 생성한다. 핵심 특징은 음성뿐 아니라 [laughs], [music] 등의 특수 태그로 비언어적 소리를 생성할 수 있으며, 13개 이상의 언어를 지원한다는 것이다.

방법론

각 단계의 GPT 스타일 트랜스포머를 대규모 다국어 오디오-텍스트 데이터에서 학습한다. EnCodec을 오디오 토크나이저로 사용하며, 텍스트 입력에 화자 프롬프트를 추가하여 목소리 특성을 조절한다. 추론 시 각 단계의 온도(temperature)를 조절하여 생성 다양성을 제어한다.

주요 결과

다국어 음성 합성에서 자연스러운 발화를 생성하며, 웃음, 한숨, 음악적 요소 등 비언어적 오디오도 포함할 수 있었다. 화자 프롬프트를 통한 제로샷 목소리 복제가 가능하며, 13개 이상의 언어에서 안정적 생성을 보였다.

임팩트

오픈소스로 공개되어 커뮤니티에서 가장 널리 사용되는 텍스트-투-오디오 도구 중 하나가 되었다. 음성, 음악, 효과음을 단일 모델로 통합 생성하는 접근이 오디오 AI의 범용화 방향을 제시했으며, TTS 분야에서 오픈소스 대안의 중요한 이정표가 되었다.

AI Paper Research

Bark: Text-Prompted Generative Audio Model

배경

핵심 아이디어

방법론

주요 결과

임팩트

관련 Foundation 논문

관련 논문