arXivCitations: 18,000+

RoBERTa: A Robustly Optimized BERT Pretraining Approach

RoBERTa: 강건하게 최적화된 BERT 사전학습 접근법

Yinhan Liu, Myle Ott, Naman Goyal, et al. (2019)

BERT의 학습 절차를 철저히 재검토하여, 더 큰 배치 크기, 더 많은 데이터, 더 긴 학습, 동적 마스킹, NSP 제거 등의 최적화를 통해 기존 BERT를 크게 능가하는 RoBERTa를 개발했다.

배경

BERT가 NLP에서 혁명적 성과를 거둔 뒤, XLNet, ERNIE 등 다양한 후속 모델들이 새로운 사전학습 목표나 아키텍처 변경을 통해 성능 향상을 시도했다. 그러나 BERT의 원래 학습 설정이 최적이었는지, 단순히 학습 절차를 잘 조정하는 것만으로도 성능이 크게 개선될 수 있는지는 체계적으로 검증되지 않았다.

핵심 아이디어

RoBERTa(Robustly optimized BERT approach)는 새로운 아키텍처나 학습 목표를 도입하지 않고, 기존 BERT의 학습 레시피만을 개선하여 놀라운 성능 향상을 달성한다. 핵심 발견들은 다음과 같다. (1) 정적 마스킹 대신 매 에포크마다 다른 마스킹 패턴을 적용하는 동적 마스킹이 동등 이상의 성능을 낸다. (2) 다음 문장 예측(NSP) 목표를 제거하면 오히려 다운스트림 성능이 향상된다. (3) 더 큰 배치(8K)와 더 많은 데이터(160GB)로 학습하면 성능이 지속적으로 향상된다. (4) BERT는 현저히 과소 학습(undertrained)되어 있었다.

방법론

BERT-Large와 동일한 아키텍처(24층, 1024 히든, 16 헤드, 355M 파라미터)를 사용한다. 학습 데이터는 BookCorpus+Wikipedia(16GB)에서 CC-News, OpenWebText, Stories를 추가하여 총 160GB로 확장했다. 배치 크기 8K, 학습 스텝 500K으로 설정하고, NSP를 제거하고, 동적 마스킹을 적용했다. 바이트 수준 BPE(50K 어휘)를 사용한다.

주요 결과

RoBERTa는 GLUE 벤치마크에서 88.5점으로 XLNet-Large(88.4)를 소폭 능가하고 BERT-Large(82.3)를 크게 상회했다. SQuAD v1.1에서 94.6 F1, v2.0에서 89.4 F1을 달성했으며, RACE 독해에서도 83.2%로 당시 최고 성능을 기록했다. 이 모든 성과가 BERT 아키텍처를 그대로 사용하면서 학습 절차만 개선한 결과라는 점이 핵심이다.

임팩트

RoBERTa는 '좋은 학습 레시피'의 중요성을 강력하게 입증한 연구이다. 모델 아키텍처 혁신만큼이나 학습 설정의 철저한 튜닝이 중요하다는 교훈은 이후 연구에 큰 영향을 미쳤다. RoBERTa 사전학습 체크포인트는 NLP 연구에서 가장 널리 사용되는 인코더 모델 중 하나로 자리잡았으며, 특히 분류, NER, 정보 추출 등의 인코더 기반 태스크에서 강력한 기준선으로 활용되고 있다.

관련 Foundation 논문

관련 논문