AudioLM: a Language Modeling Approach to Audio Generation
AudioLM: 오디오 생성을 위한 언어 모델링 접근법
Zalán Borsos, Raphaël Marinier, Damien Vincent, et al. (2022)
SoundStream 코덱 토큰과 w2v-BERT 의미 토큰을 계층적으로 언어 모델링하여, 텍스트 프롬프트 없이도 일관된 음성과 음악을 자기회귀적으로 생성하는 오디오 생성 프레임워크.
배경
오디오 생성은 음성 합성과 음악 생성으로 나뉘어 각각 별도의 방법론이 사용되었다. 언어 모델링의 '다음 토큰 예측' 패러다임이 텍스트에서 강력한 생성 능력을 보여주었지만, 연속적이고 다층적인 오디오 신호에 이를 적용하기 위해서는 적절한 이산 토큰 표현이 필요했다.
핵심 아이디어
AudioLM은 오디오를 두 종류의 토큰으로 표현한다. (1) 의미 토큰(semantic tokens): w2v-BERT의 중간 표현을 k-means로 클러스터링하여 음성의 의미적·언어적 내용을 포착한다. (2) 음향 토큰(acoustic tokens): SoundStream의 RVQ 코드로 음색, 화자 특성 등 세밀한 음향 정보를 담는다. 생성은 3단계 계층적으로 진행되는데, 먼저 의미 토큰을 생성하여 전체적 구조를 결정하고, 이를 조건으로 거친 음향 토큰, 마지막으로 세밀한 음향 토큰을 순차적으로 생성한다.
방법론
각 단계에서 디코더 전용 트랜스포머를 사용한다. 1단계는 의미 토큰의 자기회귀 생성, 2단계는 의미 토큰을 조건으로 SoundStream의 처음 4개 RVQ 레벨을 생성, 3단계는 나머지 RVQ 레벨을 생성한다. LibriLight(음성)과 MusicCaps(음악) 데이터로 학습했다.
주요 결과
음성 연속 생성에서 화자 특성, 운율, 녹음 조건을 유지하면서 의미적으로 일관된 발화를 생성했다. 피아노 음악에서도 장기적 구조를 가진 자연스러운 연속을 생성했으며, 인간 평가에서 실제 오디오와 구분하기 어려운 수준을 달성했다.
임팩트
오디오 생성을 언어 모델링 문제로 재정의하는 패러다임을 확립하여, 이후 MusicLM, VALL-E, Bark 등 코덱 기반 오디오 생성 연구의 직접적 기반이 되었다. 의미-음향 토큰의 계층적 생성이라는 프레임워크는 오디오 AI 분야의 핵심 설계 원리로 자리잡았다.