arXivCitations: 1,000+

MusicLM: Generating Music From Text

MusicLM: 텍스트로부터 음악 생성

Andrea Agostinelli, Timo I. Denk, Zalán Borsos, et al. (2023)

MuLan 음악-텍스트 임베딩을 조건으로 AudioLM의 계층적 토큰 생성을 확장하여, 텍스트 설명으로부터 고충실도 음악을 생성하는 최초의 실용적 텍스트-투-뮤직 모델.

배경

AudioLM이 오디오 연속 생성에서 인상적인 결과를 보여주었지만, 텍스트 프롬프트에 따른 조건부 생성은 지원하지 않았다. 텍스트에서 음악을 생성하는 것은 주관적 미적 요소, 장기적 구조, 다양한 악기의 조화 등 고유한 난제를 가진다. 기존 텍스트-투-뮤직 시스템은 품질이 제한적이었다.

핵심 아이디어

MusicLM은 MuLan(Music-Language)이라는 음악-텍스트 공동 임베딩 모델을 조건화 신호로 활용한다. AudioLM의 계층적 생성 구조를 확장하여, MuLan 음악 토큰→의미 토큰→음향 토큰의 3단계로 음악을 생성한다. 텍스트 설명이 MuLan 텍스트 인코더를 통해 임베딩되면, 이를 조건으로 계층적 트랜스포머가 24kHz 고충실도 음악을 자기회귀적으로 생성한다. MusicCaps라는 고품질 음악-텍스트 쌍 평가 데이터셋도 함께 공개했다.

방법론

MuLan으로 오디오와 텍스트를 공유 임베딩 공간에 매핑한다. 1단계 트랜스포머가 MuLan 토큰을 조건으로 의미 토큰(w2v-BERT)을 생성하고, 2단계가 거친 SoundStream 토큰을, 3단계가 세밀한 SoundStream 토큰을 생성한다. Free Music Archive 등 대규모 음악 데이터로 학습했다.

주요 결과

MusicCaps 평가에서 기존 Mubert, Riffusion 등을 오디오 품질과 텍스트 충실도 모두에서 크게 앞섰다. 30초 이상의 일관된 음악 생성이 가능했으며, '재즈 풍의 슬픈 피아노 곡'과 같은 세밀한 텍스트 지시를 잘 반영했다. 멜로디 조건부 생성도 지원했다.

임팩트

텍스트-투-뮤직 생성을 실용적 수준으로 끌어올린 획기적 연구로, AI 음악 창작의 새로운 시대를 열었다. MusicGen, Stable Audio, Udio 등 후속 음악 생성 모델에 직접적 영감을 주었으며, 음악 산업에서 AI 활용에 대한 활발한 논의를 촉발했다.

관련 Foundation 논문

관련 논문