NeurIPS 2019Citations: 8,000+

XLNet: Generalized Autoregressive Pretraining for Language Understanding

XLNet: 언어 이해를 위한 일반화된 자기회귀 사전학습

Zhilin Yang, Zihang Dai, Yiming Yang, et al. (2019)

BERT의 마스킹 기반 사전 학습의 한계를 극복하기 위해 순열 언어 모델링(permutation language modeling)을 제안하여, 자기 회귀 모델의 장점과 양방향 문맥 활용을 동시에 달성했다.

배경

BERT는 마스크드 언어 모델(MLM)을 통해 양방향 문맥을 활용하여 큰 성공을 거두었으나, 사전 학습 시 사용하는 [MASK] 토큰이 미세 조정 시에는 등장하지 않아 사전 학습-미세 조정 간 불일치(pretrain-finetune discrepancy)가 발생했다. 또한 마스킹된 토큰들이 서로 독립이라고 가정하여 토큰 간 상관관계를 무시하는 문제도 있었다.

핵심 아이디어

XLNet은 순열 언어 모델링이라는 새로운 사전 학습 목표를 도입한다. 입력 시퀀스의 모든 가능한 순서(permutation)를 고려하여 자기 회귀 방식으로 학습함으로써, [MASK] 토큰 없이도 양방향 문맥 정보를 활용할 수 있다. 구체적으로 각 학습 단계에서 토큰 순서의 무작위 순열을 샘플링하고, 해당 순열에 따른 조건부 확률을 자기 회귀적으로 분해한다. 이를 통해 BERT의 독립성 가정 없이 모든 토큰 간 의존성을 모델링할 수 있다. 또한 Transformer-XL의 세그먼트 재귀 메커니즘을 통합하여 긴 문맥 처리 능력을 향상시켰다.

방법론

Two-stream self-attention 메커니즘을 도입하여, 예측 대상 토큰의 위치 정보만 사용하는 query stream과 내용 정보를 포함하는 content stream을 분리한다. Transformer-XL의 상대 위치 인코딩과 세그먼트 수준 재귀를 채택하여 긴 시퀀스에 대한 의존성을 효과적으로 포착한다.

주요 결과

XLNet은 20개의 NLP 벤치마크에서 BERT를 능가하는 성능을 달성했다. 특히 SQuAD 2.0, RACE 독해 이해, GLUE 벤치마크 등에서 유의미한 성능 향상을 보였다. 긴 문서를 다루는 태스크에서 Transformer-XL 구조의 이점이 특히 두드러졌다.

임팩트

XLNet은 자기 회귀 모델과 자기 인코딩 모델의 장점을 결합하는 새로운 방향을 제시했다. 순열 언어 모델링이라는 사전 학습 패러다임은 이후 연구에 영감을 주었으며, 사전 학습 목표 설계에서 마스킹 방식의 대안을 탐구하는 계기가 되었다.

관련 Foundation 논문

관련 논문