DeBERTa: Decoding-enhanced BERT with Disentangled Attention
DeBERTa: 분리된 어텐션을 활용한 디코딩 강화 BERT
Pengcheng He, Xiaodong Liu, Jianfeng Gao, Weizhu Chen (2020)
콘텐츠와 위치 정보를 분리하여 어텐션하는 분리 어텐션(disentangled attention) 메커니즘과 향상된 마스크 디코더를 도입하여, BERT/RoBERTa를 크게 능가하고 SuperGLUE에서 최초로 인간 수준을 돌파한 DeBERTa를 제안했다.
배경
BERT 이후 RoBERTa, XLNet 등이 사전학습 방법론을 개선해왔으나, Transformer의 셀프 어텐션 메커니즘 자체를 근본적으로 개선하려는 시도는 상대적으로 적었다. 기존 Transformer는 콘텐츠 임베딩과 위치 임베딩을 합산한 뒤 어텐션을 수행하는데, 이는 두 종류의 정보가 혼재되어 각각의 기여를 효과적으로 모델링하기 어렵다는 한계가 있었다.
핵심 아이디어
DeBERTa(Decoding-enhanced BERT with disentangled Attention)는 두 가지 핵심 기법을 도입한다. 첫째, 분리 어텐션 메커니즘은 각 토큰을 콘텐츠 벡터와 위치 벡터의 두 가지로 표현하고, 이들 사이의 어텐션을 content-to-content, content-to-position, position-to-content의 세 가지 성분으로 분리하여 계산한다. 이를 통해 '단어의 의미'와 '단어의 위치'가 서로에게 미치는 영향을 명시적으로 모델링할 수 있다. 둘째, 향상된 마스크 디코더(EMD)는 사전학습 시 마스킹된 토큰을 예측할 때, 디코딩 레이어에서 절대 위치 정보를 결합한다. 상대 위치만으로는 부족한 구문적 정보(예: 문장 내 위치에 따른 역할)를 보완하기 위함이다.
방법론
BERT/RoBERTa와 동일한 마스크드 언어 모델(MLM) 사전학습 목표를 사용한다. 분리 어텐션에서는 상대 위치 인코딩만 사용하고, 최종 디코딩 레이어에서만 절대 위치를 추가한다. 가상 적대적 학습(virtual adversarial training)을 미세조정 단계에 적용하여 모델의 강건성을 향상시킨다. 모델 크기는 Base(140M)와 Large(350M)에 더해, 1.5B 파라미터의 DeBERTa-XL도 제공한다.
주요 결과
DeBERTa-Large는 RoBERTa-Large 및 XLNet-Large 대비 대부분의 NLU 벤치마크에서 우수한 성능을 달성했다. 특히 1.5B 파라미터의 DeBERTa는 SuperGLUE 벤치마크에서 90.0점을 달성하여, 인간 베이스라인(89.8)을 최초로 능가한 단일 모델이 되었다. SQuAD v2.0에서도 RoBERTa 대비 유의미한 성능 향상을 보였다.
임팩트
DeBERTa는 어텐션 메커니즘의 근본적 개선이 사전학습 모델의 성능을 크게 향상시킬 수 있음을 보여주었다. 분리 어텐션이라는 개념은 이후 위치 인코딩 연구에 영감을 주었으며, DeBERTa-v3는 현재까지도 인코더 기반 NLU 태스크의 최강 모델 중 하나로 널리 활용되고 있다. HuggingFace에서 가장 많이 다운로드되는 인코더 모델 중 하나이다.