HuBERT: Self-Supervised Speech Representation Learning by Masked Prediction of Hidden Units
HuBERT: 은닉 유닛의 마스크 예측을 통한 자기지도 음성 표현 학습
Wei-Ning Hsu, Benjamin Bolte, Yao-Hung Hubert Tsai, et al. (2021)
클러스터링된 음성 특징의 마스크 예측을 통해 자기지도 음성 표현을 학습하여, 라벨 없이도 강력한 음성 인식과 다양한 음성 태스크에 활용 가능한 범용 표현을 획득한 논문.
배경
NLP에서 BERT의 마스크 언어 모델링이 큰 성공을 거두었지만, 음성에 직접 적용하기 어려웠다. 텍스트는 이산적 토큰이지만 음성은 연속적 신호이며, 사전 정의된 어휘가 없어 마스크 예측의 타겟을 정의하기 어려웠다. wav2vec 2.0이 대조 학습으로 접근했으나, 마스크 예측 방식의 가능성은 아직 충분히 탐구되지 않았다.
핵심 아이디어
HuBERT(Hidden-Unit BERT)의 핵심 아이디어는 오프라인 클러스터링으로 음성의 이산적 유사 라벨을 생성하여 마스크 예측의 타겟으로 사용하는 것이다. MFCC나 이전 반복의 모델 특징에 k-means 클러스터링을 적용하여 각 프레임에 이산 라벨을 할당한다. 트랜스포머 인코더가 마스킹된 구간의 클러스터 라벨을 예측하도록 학습한다. 반복적 리파인먼트(iterative refinement)가 핵심으로, 학습된 모델의 중간 표현으로 다시 클러스터링하여 더 나은 타겟을 생성하고 재학습한다.
방법론
1차 반복에서 MFCC 39차원 특징에 k-means(100 클러스터)를 적용하여 초기 라벨을 생성한다. CNN 특징 추출기와 트랜스포머 인코더로 마스크 예측 학습 후, 모델의 6번째 층 특징으로 재클러스터링(500 클러스터)하여 2차 반복을 수행한다. LibriSpeech 960시간으로 학습했다.
주요 결과
LibriSpeech test-clean에서 10분 라벨로 미세조정 시 WER 4.3%를 달성하여 wav2vec 2.0(4.8%)을 앞섰다. SUPERB 벤치마크의 음성 인식, 화자 인식, 감정 인식 등 다양한 태스크에서 범용 표현으로서 우수한 성능을 보였다.
임팩트
오프라인 클러스터링과 마스크 예측의 결합이라는 새로운 음성 자기지도 학습 패러다임을 확립했다. 이후 음성 언어 모델, 코덱 기반 음성 생성 등에서 HuBERT 표현이 널리 활용되었으며, data2vec 등 크로스모달 자기지도 학습 연구에도 영향을 미쳤다.