ACL 2020Citations: 10,000+

BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension

BART: 자연어 생성, 번역, 이해를 위한 디노이징 시퀀스-투-시퀀스 사전학습

Mike Lewis, Yinhan Liu, Naman Goyal, et al. (2020)

다양한 노이즈 함수를 적용하여 텍스트를 손상시킨 뒤 원본을 복원하도록 학습하는 디노이징 오토인코더 방식의 시퀀스-투-시퀀스 사전학습 모델 BART를 제안하여, 텍스트 생성과 이해 태스크 모두에서 우수한 성능을 달성했다.

배경

BERT는 마스크드 언어 모델로 자연어 이해(NLU)에서 뛰어난 성능을 보였으나, 자기 회귀적 생성에는 적합하지 않았다. GPT는 자기 회귀적 생성에 강하지만 양방향 문맥을 활용하지 못했다. T5는 텍스트-투-텍스트 형식으로 통일하는 접근을 제시했지만, 사전학습 목표의 선택에 대한 체계적 탐구가 필요했다. 이해와 생성을 모두 잘 수행하는 통합 모델에 대한 수요가 있었다.

핵심 아이디어

BART(Bidirectional and Auto-Regressive Transformers)는 표준 인코더-디코더 Transformer 아키텍처를 사용하는 디노이징 오토인코더이다. 핵심 아이디어는 입력 텍스트에 임의의 노이즈 함수를 적용하여 손상시킨 뒤, 모델이 원본 텍스트를 복원하도록 학습하는 것이다. 다양한 노이즈 변환을 체계적으로 비교 실험한 결과, 토큰 마스킹과 문장 순서 섞기(sentence permutation)를 결합한 방식이 가장 효과적임을 발견했다. 특히 연속된 여러 토큰을 하나의 마스크 토큰으로 대체하는 text infilling이 핵심 노이즈 함수로, 모델이 누락된 토큰의 수까지 예측해야 하므로 더 깊은 언어 이해를 요구한다.

방법론

BERT와 동일한 규모(Base: 6층, Large: 12층)의 인코더-디코더 Transformer를 사용한다. 인코더는 손상된 텍스트를 양방향으로 처리하고, 디코더는 자기 회귀적으로 원본 텍스트를 생성한다. 사전학습 노이즈 함수로 text infilling(포아송 분포 람다=3으로 span 길이 결정)과 sentence permutation을 결합한다. 미세조정 시, 분류 태스크에는 디코더 최종 출력에 분류 헤드를 추가하고, 생성 태스크에는 입력을 인코더에 넣고 디코더로 직접 생성한다.

주요 결과

BART-Large는 요약(CNN/DM에서 44.16 ROUGE-L, XSum에서 38.79 ROUGE-L)에서 당시 최고 성능을 달성하여 생성 태스크에서의 강점을 입증했다. 질의응답(SQuAD 2.0에서 88.8 F1), 자연어 추론(MNLI에서 89.9%)에서도 RoBERTa와 경쟁 가능한 성능을 보였다. 기계 번역(WMT16 Ro-En)에서도 역번역과 결합하여 우수한 결과를 달성했다.

임팩트

BART는 인코더-디코더 구조의 사전학습 모델이 이해와 생성 모두에서 강력한 성능을 발휘할 수 있음을 보여주었다. 특히 텍스트 요약 분야에서 새로운 표준을 제시했으며, 이후 mBART(다국어 확장), PEGASUS(요약 특화) 등 후속 연구의 기반이 되었다. HuggingFace에서 요약, 번역 등 조건부 생성 태스크의 핵심 모델로 널리 활용되고 있으며, facebook/bart-large-mnli는 제로샷 분류의 표준 모델이 되었다.

관련 Foundation 논문

관련 논문