AI Paper Research

1,800개 이상의 태스크에 대해 지시 미세조정(instruction finetuning)을 수행하면 모델의 성능과 사용성이 비약적으로 향상되며, 이 효과가 모델 크기, 태스크 수, 체인-오브-소트 데이터 포함에 따라 스케일링됨을 체계적으로 입증했다.

배경

GPT-3의 few-shot 학습 이후, InstructGPT와 같이 인간 피드백으로 모델을 정렬하는 연구와 FLAN, T0 등 다양한 태스크로 지시 미세조정하는 연구가 동시에 발전했다. 그러나 지시 미세조정의 스케일링 특성(태스크 수, 모델 크기, 데이터 구성의 영향)은 체계적으로 연구되지 않았다.

핵심 아이디어

Flan-T5(Flan 2022)는 지시 미세조정을 1,800개 이상의 태스크로 대폭 확장하고, 체인-오브-소트(CoT) 추론 데이터를 학습에 포함시키며, 입력 역전(input inversion)과 다양한 템플릿을 활용한다는 세 가지 핵심 개선을 도입한다. 학습 태스크를 Muffin(473개), T0-SF(193개), NIV2(1,554개), CoT 데이터셋의 네 가지 혼합물로 구성하고, 다양한 프롬프트 템플릿(zero-shot, few-shot, CoT)을 사용한다. 핵심 발견은 (1) 태스크 수를 늘리면 성능이 지속적으로 향상되고, (2) 모델 크기를 키우면 태스크 수 증가의 이점이 더 커지며, (3) CoT 데이터를 포함하면 추론 능력이 크게 향상된다는 것이다.

방법론

T5(80M~11B)와 PaLM(8B~540B) 모델에 대해 혼합된 지시 미세조정을 수행한다. 학습 데이터는 각 태스크별 예제 수의 상한(exemplars cap)을 설정하여 균형을 맞추고, zero-shot, few-shot, CoT 템플릿을 섞어 학습한다. 평가는 학습에 포함되지 않은 held-out 태스크들(MMLU, BBH, TyDiQA, MGSM 등)로 수행한다.

주요 결과

Flan-PaLM 540B는 MMLU에서 75.2%를 달성하여 기존 PaLM(69.3%)을 크게 능가했다. Flan-T5-XL(3B)은 여러 벤치마크에서 GPT-3(175B)를 능가하는 효율성을 보여주었다. BBH(BIG-Bench Hard)에서 CoT 프롬프팅 시 Flan-PaLM이 PaLM 대비 평균 8.1% 향상되었다. 특히 Flan 미세조정 모델이 후속 few-shot 및 CoT 프롬프팅에도 더 잘 반응하여, 기본 능력을 유지하면서 지시 따르기 능력이 향상됨을 확인했다.

임팩트

Flan-T5는 지시 미세조정의 스케일링 법칙을 실증적으로 확립하여, 이후 Alpaca, Vicuna 등 오픈소스 지시 미세조정 모델 개발의 이론적 토대를 제공했다. 특히 Flan-T5 체크포인트는 공개되어 학술 및 산업계에서 가장 널리 사용되는 instruction-tuned 인코더-디코더 모델이 되었으며, 적은 자원으로도 강력한 태스크 수행이 가능함을 보여주었다.

AI Paper Research

Scaling Instruction-Finetuned Language Models

배경

핵심 아이디어

방법론

주요 결과

임팩트

관련 Foundation 논문

관련 논문