AI Paper Research

68만 시간의 약한 지도학습 데이터로 인코더-디코더 트랜스포머를 훈련하여, 다국어 음성 인식·번역·언어 감지 등 다중 태스크를 하나의 모델로 수행하는 범용 음성 시스템.

배경

음성 인식 연구는 오랫동안 깨끗하게 전사된 소규모 데이터셋에 의존했다. 이로 인해 특정 도메인이나 언어에 과적합되어, 실제 환경의 다양한 억양, 배경 소음, 전문 용어에 취약했다. 대규모 약한 지도학습이 이 문제를 해결할 수 있는지가 핵심 질문이었다.

핵심 아이디어

Whisper의 핵심 전략은 인터넷에서 수집한 68만 시간의 오디오-텍스트 쌍을 약한 지도학습(weak supervision)으로 활용하는 것이다. 데이터 품질이 완벽하지 않더라도, 규모의 힘으로 강건한 일반화를 달성한다. 단일 모델이 다국어 음성 인식, 음성 번역, 언어 감지, 타임스탬프 예측 등 여러 태스크를 텍스트 토큰의 특수 포맷으로 통합 처리한다. 태스크와 언어를 나타내는 특수 토큰을 사용하여, 디코더가 맥락에 따라 적절한 출력을 생성하도록 한다.

방법론

멜 스펙트로그램을 입력으로 받는 트랜스포머 인코더와, 텍스트를 자기회귀적으로 생성하는 디코더로 구성된다. 다양한 크기(39M~1.55B 파라미터)로 학습하며, 멀티태스크 학습을 통해 하나의 모델에서 모든 기능을 수행한다.

주요 결과

영어 음성 인식에서 사전 학습만으로(미세조정 없이) LibriSpeech에서 기존 지도학습 모델과 동등한 성능을 달성했다. 다국어에서는 Fleurs 벤치마크의 많은 언어에서 최고 성능을 기록했으며, 배경 소음, 억양, 전문 용어에 대한 강건성이 크게 향상되었다.

임팩트

음성 인식을 '풀린 문제(solved problem)'에 가깝게 만든 전환점이다. 오픈소스로 공개되어 전 세계적으로 활용되고 있으며, 실시간 자막, 회의 기록, 접근성 도구 등 수많은 응용에 직접 적용되고 있다. 약한 지도학습의 확장이 전문 데이터셋을 대체할 수 있음을 실증했다.

AI Paper Research

Robust Speech Recognition via Large-Scale Weak Supervision

배경

핵심 아이디어

방법론

주요 결과

임팩트

관련 Foundation 논문

관련 논문