Training Compute-Optimal Large Language Models
계산 최적 대규모 언어 모델 학습
Jordan Hoffmann, Sebastian Borgeaud, Arthur Mensch, et al. (2022)
고정된 연산 예산에서 모델 크기와 학습 데이터 양의 최적 비율을 분석하여, 기존 LLM들이 과도하게 크고 데이터가 부족하게 학습되었음을 밝혔다.
배경
GPT-3 이후 LLM 연구는 모델 파라미터 수를 늘리는 방향으로 경쟁하고 있었다. Kaplan 등의 스케일링 법칙 연구는 모델 크기를 키우는 것이 데이터 양을 늘리는 것보다 더 중요하다고 시사하여, 대규모 모델을 상대적으로 적은 데이터로 학습하는 경향이 지배적이었다.
핵심 아이디어
Hoffmann 등은 세 가지 독립적인 방법으로 연산 예산(compute budget)에 따른 최적의 모델 크기와 학습 토큰 수를 추정했다. 그 결과 모델 파라미터 수와 학습 토큰 수가 동일한 비율로 스케일링되어야 한다는 결론에 도달했다. 구체적으로 모델 파라미터 수가 두 배가 되면 학습 토큰 수도 두 배가 되어야 최적이다. 이 분석에 따르면 Gopher(280B)는 같은 연산 예산으로 70B 모델을 4배 더 많은 데이터로 학습시키는 것이 최적이었다. 이를 검증하기 위해 70B 파라미터의 Chinchilla를 1.4조 토큰으로 학습했다.
방법론
세 가지 접근법을 사용했다. (1) 다양한 모델 크기에 대해 고정된 연산 예산별 손실 곡선을 피팅하여 최적점을 찾는 방법, (2) 고정된 FLOP에서 다양한 모델 크기로 실험하여 IsoFLOP 곡선을 분석하는 방법, (3) 모든 실험 결과에 파라메트릭 손실 함수를 직접 피팅하는 방법. 400개 이상의 학습 실행을 수행하여 분석했다.
주요 결과
Chinchilla(70B, 1.4T 토큰)는 4배 큰 Gopher(280B, 300B 토큰)를 대부분의 평가 벤치마크에서 능가했다. MMLU에서 67.5%의 평균 정확도를 달성하여 Gopher의 60%를 크게 상회했으며, 추론 시 연산 비용도 4배 저렴했다.
임팩트
Chinchilla 연구는 LLM 커뮤니티의 스케일링 전략을 근본적으로 바꾸었다. '모델을 크게 만드는 것보다 충분한 데이터로 학습시키는 것이 중요하다'는 메시지는 이후 LLaMA, Mistral 등 상대적으로 작지만 충분히 학습된 효율적 모델의 개발을 촉진했다. 컴퓨트 최적 학습이라는 개념을 실질적 지침으로 확립했다.