arXivCitations: 5,000+

Scaling Instruction-Finetuned Language Models

지시 미세조정 언어 모델의 스케일링

Hyung Won Chung, Le Hou, Shayne Longpre, et al. (2022)

1,800개 이상의 태스크에 대해 지시 미세조정(instruction finetuning)을 수행하면 모델의 성능과 사용성이 비약적으로 향상되며, 이 효과가 모델 크기, 태스크 수, 체인-오브-소트 데이터 포함에 따라 스케일링됨을 체계적으로 입증했다.

배경

GPT-3의 few-shot 학습 이후, InstructGPT와 같이 인간 피드백으로 모델을 정렬하는 연구와 FLAN, T0 등 다양한 태스크로 지시 미세조정하는 연구가 동시에 발전했다. 그러나 지시 미세조정의 스케일링 특성(태스크 수, 모델 크기, 데이터 구성의 영향)은 체계적으로 연구되지 않았다.

핵심 아이디어

Flan-T5(Flan 2022)는 지시 미세조정을 1,800개 이상의 태스크로 대폭 확장하고, 체인-오브-소트(CoT) 추론 데이터를 학습에 포함시키며, 입력 역전(input inversion)과 다양한 템플릿을 활용한다는 세 가지 핵심 개선을 도입한다. 학습 태스크를 Muffin(473개), T0-SF(193개), NIV2(1,554개), CoT 데이터셋의 네 가지 혼합물로 구성하고, 다양한 프롬프트 템플릿(zero-shot, few-shot, CoT)을 사용한다. 핵심 발견은 (1) 태스크 수를 늘리면 성능이 지속적으로 향상되고, (2) 모델 크기를 키우면 태스크 수 증가의 이점이 더 커지며, (3) CoT 데이터를 포함하면 추론 능력이 크게 향상된다는 것이다.

방법론

T5(80M~11B)와 PaLM(8B~540B) 모델에 대해 혼합된 지시 미세조정을 수행한다. 학습 데이터는 각 태스크별 예제 수의 상한(exemplars cap)을 설정하여 균형을 맞추고, zero-shot, few-shot, CoT 템플릿을 섞어 학습한다. 평가는 학습에 포함되지 않은 held-out 태스크들(MMLU, BBH, TyDiQA, MGSM 등)로 수행한다.

주요 결과

Flan-PaLM 540B는 MMLU에서 75.2%를 달성하여 기존 PaLM(69.3%)을 크게 능가했다. Flan-T5-XL(3B)은 여러 벤치마크에서 GPT-3(175B)를 능가하는 효율성을 보여주었다. BBH(BIG-Bench Hard)에서 CoT 프롬프팅 시 Flan-PaLM이 PaLM 대비 평균 8.1% 향상되었다. 특히 Flan 미세조정 모델이 후속 few-shot 및 CoT 프롬프팅에도 더 잘 반응하여, 기본 능력을 유지하면서 지시 따르기 능력이 향상됨을 확인했다.

임팩트

Flan-T5는 지시 미세조정의 스케일링 법칙을 실증적으로 확립하여, 이후 Alpaca, Vicuna 등 오픈소스 지시 미세조정 모델 개발의 이론적 토대를 제공했다. 특히 Flan-T5 체크포인트는 공개되어 학술 및 산업계에서 가장 널리 사용되는 instruction-tuned 인코더-디코더 모델이 되었으며, 적은 자원으로도 강력한 태스크 수행이 가능함을 보여주었다.

관련 Foundation 논문

관련 논문