JMLR 2020Citations: 18,000+

Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer

통합 텍스트-투-텍스트 트랜스포머를 통한 전이학습의 한계 탐구

Colin Raffel, Noam Shazeer, Adam Roberts, et al. (2019)

모든 NLP 태스크를 텍스트-투-텍스트(text-to-text) 형식으로 통일하고, 대규모 비교 연구를 통해 전이 학습의 최적 전략을 체계적으로 탐색한 연구이다.

배경

BERT, GPT 등의 사전 학습 모델이 NLP에서 큰 성공을 거두었으나, 사전 학습 목표, 아키텍처, 데이터셋 크기, 미세 조정 방법 등 수많은 설계 선택지가 존재했다. 각 연구가 서로 다른 설정을 사용하여 어떤 요소가 실제로 중요한지 비교하기 어려운 상황이었다.

핵심 아이디어

T5(Text-to-Text Transfer Transformer)는 분류, 번역, 요약, 질의응답 등 모든 NLP 태스크를 '입력 텍스트 → 출력 텍스트' 형식으로 변환하는 통합 프레임워크를 제안한다. 이를 통해 동일한 모델, 동일한 학습 절차, 동일한 손실 함수를 모든 태스크에 적용할 수 있다. 또한 C4(Colossal Clean Crawled Corpus)라는 대규모 정제 데이터셋을 구축하고, 아키텍처(인코더-디코더 vs 디코더 전용), 사전 학습 목표(언어 모델링, 마스킹 등), 데이터셋 크기, 학습 전략 등을 체계적으로 비교 실험했다. 이 방대한 비교 연구 자체가 논문의 핵심 기여이다.

방법론

인코더-디코더 Transformer 아키텍처를 기반으로, 입력에 태스크 접두어(예: 'translate English to German:', 'summarize:')를 붙여 태스크를 구분한다. 사전 학습 목표로는 span corruption(연속 토큰을 마스킹하고 복원)이 가장 효과적임을 확인했다. 모델 크기를 Small부터 11B 파라미터까지 다양하게 실험했다.

주요 결과

T5-11B 모델은 GLUE, SuperGLUE, SQuAD, WMT 번역 등 다수의 벤치마크에서 당시 최고 성능을 달성했다. 특히 SuperGLUE에서 인간 수준의 성능에 근접한 결과를 보였다. 비교 연구를 통해 인코더-디코더 구조, span corruption 사전 학습, 충분한 데이터와 모델 크기의 중요성을 실증적으로 입증했다.

임팩트

T5는 텍스트-투-텍스트 패러다임을 통해 NLP 태스크의 통합적 처리 방식을 제시했으며, 이는 이후 GPT-3의 프롬프트 기반 접근과 함께 현대 LLM의 범용적 활용 방식에 큰 영향을 미쳤다. C4 데이터셋은 후속 연구에서 널리 활용되었고, 체계적 비교 연구는 전이 학습 연구의 모범적 방법론을 제시했다.

관련 Foundation 논문

관련 논문