IEEE/ACM TASLP 2022Citations: 1,500+

SoundStream: An End-to-End Neural Audio Codec

SoundStream: 엔드투엔드 신경 오디오 코덱

Neil Zeghidour, Alejandro Luebs, Ahmed Omran, et al. (2021)

잔여 벡터 양자화(RVQ)를 갖춘 엔드투엔드 신경 오디오 코덱으로, 가변 비트레이트에서 기존 코덱을 능가하는 품질을 달성하며 코덱 기반 오디오 생성의 토대를 놓은 논문.

배경

오디오 압축은 전통적으로 Opus, EVS 등 신호처리 기반 코덱에 의존했다. 이들은 수십 년간 최적화되었지만, 저비트레이트에서 품질 저하가 불가피했다. 신경망 기반 오디오 코덱이 등장하기 시작했으나, 실시간 처리와 가변 비트레이트 지원에서 실용적 한계가 있었다.

핵심 아이디어

SoundStream은 인코더-양자화기-디코더의 end-to-end 구조를 가진다. 인코더가 원시 오디오를 저차원 임베딩으로 압축하고, 잔여 벡터 양자화(Residual Vector Quantization, RVQ)가 이를 이산 코드로 변환한다. RVQ는 여러 단계의 코드북을 순차적으로 적용하여, 각 단계가 이전 단계의 잔차를 양자화한다. 코드북 수를 조절하여 단일 모델에서 3~18kbps의 가변 비트레이트를 달성한다. 적대적 학습(discriminator)과 재구성 손실을 결합하여 고품질 오디오를 생성하며, 실시간보다 빠른 처리가 가능하다.

방법론

인코더는 1D 컨볼루션 스택, 디코더는 전치 컨볼루션 스택으로 구성된다. RVQ는 최대 12개의 코드북(각 1024 엔트리)을 사용한다. 웨이브 기반 판별기와 STFT 기반 판별기를 결합한 적대적 손실, 멜 스펙트로그램 재구성 손실, 특징 매칭 손실로 학습한다.

주요 결과

3kbps에서 Opus 9kbps와 동등한 품질을, 6kbps에서 Opus 12kbps를 능가하는 품질을 달성했다. MUSHRA 평가에서 모든 비트레이트에서 기존 코덱 대비 우수한 주관적 품질을 보였으며, 단일 TPU에서 실시간보다 빠른 인코딩/디코딩이 가능했다.

임팩트

신경 오디오 코덱 분야를 개척하여 RVQ 기반 토큰화가 오디오 생성 AI의 핵심 인프라가 되었다. AudioLM, MusicLM, VALL-E 등 코덱 토큰을 언어 모델로 생성하는 패러다임의 직접적 기반이 되었으며, EnCodec, DAC 등 후속 코덱 연구를 촉발했다.

관련 Foundation 논문

관련 논문