data2vec: A General Framework for Self-supervised Learning in Speech, Vision and Language
data2vec: 음성, 비전, 언어에서의 자기지도 학습을 위한 범용 프레임워크
Alexei Baevski, Wei-Ning Hsu, Qiantong Xu, et al. (2022)
음성, 비전, 언어의 세 가지 모달리티에서 동일한 교사-학생 자기지도 학습 프레임워크를 적용하여, 통합된 자기지도 표현 학습 방법론을 제시한 논문.
배경
자기지도 학습은 각 모달리티에서 개별적으로 발전해왔다. NLP에서는 마스크 토큰 예측, 비전에서는 대조 학습이나 마스크 패치 예측, 음성에서는 HuBERT의 클러스터 기반 예측이 주류였다. 모달리티마다 다른 방법론을 사용해야 하는 비효율성을 해소하고, 통합된 프레임워크를 구축할 수 있는지가 핵심 질문이었다.
핵심 아이디어
data2vec의 핵심 아이디어는 모든 모달리티에서 '마스킹된 입력의 학생 모델이 마스킹되지 않은 입력의 교사 모델의 잠재 표현을 예측하는' 동일한 프레임워크를 사용하는 것이다. 교사는 학생의 EMA로 업데이트된다. 기존 방법들과의 핵심 차이는 예측 타겟이 이산 토큰이나 픽셀이 아닌, 교사의 상위 레이어 표현을 평균한 연속적 잠재 벡터라는 것이다. 이 연속적 타겟이 더 풍부한 학습 신호를 제공하여, 모달리티별 귀납적 편향을 최소화하면서도 강력한 표현을 학습한다.
방법론
트랜스포머 기반 모델에서 입력의 일부를 마스킹(음성/비전: 연속 마스크, 텍스트: 토큰 마스크)한다. 교사 모델은 마스킹되지 않은 전체 입력을 받고, 상위 K개 층의 표현을 평균하여 타겟을 생성한다. 학생은 마스킹된 입력을 받아 마스킹 위치에서 교사 타겟을 평균 제곱근(smooth L1) 손실로 예측한다. 음성은 wav2vec 2.0, 비전은 ViT, 텍스트는 RoBERTa 아키텍처를 사용했다.
주요 결과
음성 인식(LibriSpeech)에서 wav2vec 2.0과 HuBERT를 앞서는 성능을 달성했고, 이미지 분류(ImageNet)에서 BEiT를 능가했으며, 자연어 이해(GLUE)에서도 RoBERTa에 필적했다. 세 모달리티 모두에서 동일한 프레임워크가 경쟁력 있는 성능을 보였다.
임팩트
모달리티에 구애받지 않는 통합 자기지도 학습의 가능성을 최초로 대규모로 실증했다. data2vec 2.0에서 효율성을 크게 개선했으며, 범용 AI 시스템 구축을 위한 통합 표현 학습이라는 비전을 제시하여 멀티모달 기초 모델 연구에 영향을 미쳤다.