High Fidelity Neural Audio Compression
고충실도 신경 오디오 압축
Alexandre Défossez, Jade Copet, Gabriel Synnaeve, Yossi Adi (2022)
잔여 벡터 양자화(RVQ)와 트랜스포머 언어 모델을 결합한 Meta의 고충실도 신경 오디오 코덱으로, 1.5kbps의 극저비트레이트에서도 우수한 음질을 달성하는 실시간 오디오 압축 시스템.
배경
SoundStream이 신경 오디오 코덱의 가능성을 보여주었지만, 극저비트레이트에서의 품질과 다양한 오디오 유형(음성, 음악, 일반 오디오)에 대한 범용성에서 개선의 여지가 있었다. 또한 코덱의 잠재 공간을 언어 모델로 모델링하여 추가적 품질 향상을 꾀하는 방향이 탐구되지 않았다.
핵심 아이디어
EnCodec은 세 가지 핵심 요소로 구성된다. (1) SEANet 기반의 인코더-디코더 구조로 24kHz/48kHz 오디오를 처리한다. (2) RVQ(최대 32개 코드북)로 1.5~24kbps의 광범위한 비트레이트를 지원하며, 학습 시 비트레이트를 무작위로 샘플링하여 단일 모델에서 가변 비트레이트를 달성한다. (3) 소형 트랜스포머 언어 모델이 RVQ 코드의 분포를 학습하여 추가적 무손실 압축(엔트로피 코딩)을 수행한다. 멀티스케일 STFT 판별기와 밸런서(balancer) 메커니즘으로 안정적 적대적 학습을 보장한다.
방법론
인코더는 1D 컨볼루션과 LSTM, 디코더는 전치 컨볼루션과 LSTM으로 구성된다. 멀티스케일 STFT 판별기, 재구성 손실(시간 도메인 + 주파수 도메인), 특징 매칭 손실을 결합한다. 손실 가중치를 자동 조정하는 밸런서를 도입하여 학습 안정성을 높였다. DNS Challenge, Common Voice, Jamendo 등 다양한 데이터로 학습했다.
주요 결과
3kbps에서 Opus 6kbps와 동등한 MUSHRA 점수를 달성했고, 6kbps에서는 기존 모든 코덱을 능가했다. 엔트로피 코딩 적용 시 평균 25~40%의 추가 비트레이트 절감을 달성했으며, 스트리밍 모드에서 실시간보다 빠른 처리가 가능했다.
임팩트
오픈소스로 공개되어 오디오 AI 연구의 핵심 인프라가 되었다. VALL-E, MusicGen, AudioCraft 등 Meta의 후속 오디오 생성 모델의 토큰화 기반이며, 코덱 기반 오디오 생성 생태계의 확산에 결정적 역할을 했다. 통신, 스트리밍 등 실용적 오디오 압축 분야에도 영향을 미쳤다.