arXivCitations: 8,000+

LLaMA: Open and Efficient Foundation Language Models

LLaMA: 개방적이고 효율적인 기초 언어 모델

Hugo Touvron, Thibaut Lavril, Gautier Izacard, et al. (2023)

공개적으로 이용 가능한 데이터만으로 학습한 7B~65B 규모의 오픈 소스 파운데이션 모델 LLaMA를 공개하여, 소규모 모델도 충분한 데이터로 학습하면 대형 모델에 필적하는 성능을 달성할 수 있음을 보여주었다.

배경

GPT-3, PaLM, Chinchilla 등 강력한 LLM들이 등장했으나, 대부분 비공개이거나 접근이 제한되어 학술 연구 커뮤니티에서 재현하거나 연구하기 어려웠다. Chinchilla의 연구는 모델 크기와 데이터 양의 균형이 중요함을 보여주었지만, 추론 시 비용도 고려하면 더 작은 모델을 더 오래 학습시키는 것이 실용적으로 유리할 수 있었다.

핵심 아이디어

LLaMA는 Chinchilla의 스케일링 법칙을 넘어, 추론 시 효율성까지 고려한 새로운 관점을 제시한다. 학습 연산 예산이 아닌 추론 시 목표 성능 수준을 기준으로, 해당 성능을 가장 빠르게 달성하는 모델 크기와 데이터 양 조합을 탐구한다. 결과적으로 7B 모델을 1조 토큰, 65B 모델을 1.4조 토큰으로 학습시켜(Chinchilla 최적보다 훨씬 많은 토큰), 추론 시 저렴하면서도 강력한 모델을 만들었다. 모든 학습 데이터는 공개 데이터셋(CommonCrawl, C4, Wikipedia, ArXiv, GitHub 등)으로 구성하여 재현 가능성을 높였다.

방법론

표준 Transformer 아키텍처에 RMSNorm 정규화, SwiGLU 활성화 함수, 로터리 위치 임베딩(RoPE) 등의 최신 기법을 적용했다. 효율적 구현을 위해 인과적 다중 헤드 어텐션의 메모리 최적화, 체크포인팅을 통한 역전파 메모리 절감, 모델 및 시퀀스 병렬화를 활용했다.

주요 결과

LLaMA-13B는 대부분의 벤치마크에서 GPT-3(175B)를 능가했으며, 단일 GPU에서도 실행 가능했다. LLaMA-65B는 Chinchilla-70B 및 PaLM-540B와 비교 가능한 성능을 보여주었다. MMLU, HellaSwag, ARC, WinoGrande 등 다양한 벤치마크에서 경쟁력 있는 결과를 달성했다.

임팩트

LLaMA의 공개는 오픈 소스 LLM 생태계의 폭발적 성장을 촉발한 결정적 사건이었다. Alpaca, Vicuna, LLaMA-2 등 수많은 파생 모델과 미세 조정 연구가 이어졌으며, 연구 커뮤니티와 스타트업이 자체 LLM을 개발할 수 있는 기반을 마련했다. 이후 Mistral, Mixtral 등으로 이어지는 오픈 소스 LLM 혁명의 시작점이 되었다.

관련 Foundation 논문

관련 논문