Llama 2: Open Foundation and Fine-Tuned Chat Models
Llama 2: 개방형 파운데이션 및 미세조정 채팅 모델
Hugo Touvron, Louis Martin, Kevin Stone, et al. (2023)
Meta가 7B~70B 규모의 사전학습 및 미세조정 LLM 컬렉션 Llama 2를 공개하고, 특히 RLHF로 최적화된 Llama 2-Chat이 대부분의 벤치마크에서 기존 오픈소스 채팅 모델을 능가하며 상용 모델과 경쟁 가능한 수준임을 보여주었다.
배경
LLaMA의 공개가 오픈소스 LLM 생태계를 촉발했으나, 원래 LLaMA는 연구 전용 라이선스로 상업적 활용이 제한되었고, 채팅에 최적화된 공식 버전도 없었다. Alpaca, Vicuna 등 커뮤니티 파인튜닝 모델이 등장했지만, 안전성과 유용성 면에서 체계적 최적화가 부족했다. 상업적으로 활용 가능하면서 안전한 오픈소스 채팅 모델에 대한 수요가 컸다.
핵심 아이디어
Llama 2는 세 가지 핵심 개선을 도입한다. 첫째, 사전학습 데이터를 1.4조에서 2조 토큰으로 40% 확장하고 문맥 길이를 2048에서 4096으로 두 배 늘렸다. 둘째, RLHF를 통해 Llama 2-Chat을 개발하며, 기존의 단일 보상 모델 대신 유용성(helpfulness)과 안전성(safety) 두 가지 별도 보상 모델을 학습시키는 이중 보상 모델 접근법을 채택했다. 셋째, rejection sampling과 PPO를 반복적으로 적용하는 RLHF 파이프라인을 통해 점진적으로 모델을 개선하며, Ghost Attention(GAtt) 기법으로 다회전 대화에서의 시스템 프롬프트 일관성을 유지한다.
방법론
표준 Transformer 아키텍처에 RMSNorm, SwiGLU, GQA(Grouped-Query Attention, 34B/70B에서), RoPE를 적용했다. SFT 단계에서 27,540개의 고품질 시연 데이터를 사용하고, RLHF 단계에서 100만개 이상의 인간 비교 데이터로 보상 모델을 학습했다. Rejection sampling(RS)으로 높은 보상 점수의 응답을 선별한 뒤 추가 SFT를 수행하고, 이후 PPO로 정책을 최적화하는 과정을 여러 반복(iteration) 수행했다.
주요 결과
Llama 2-Chat 70B는 인간 평가에서 ChatGPT에 근접한 유용성 점수를 달성하고, 안전성에서는 ChatGPT를 상회했다. MMLU에서 Llama 2 70B는 68.9%, Llama 2-Chat 70B는 63.9%를 기록했다. 오픈소스 모델 중에서는 MPT, Falcon 등을 대부분의 벤치마크에서 능가했다. 특히 안전성 평가에서 유해 응답 비율이 RLHF 반복 횟수에 따라 지속적으로 감소하는 것을 확인했다.
임팩트
Llama 2는 상업적 사용이 가능한 라이선스로 공개되어 오픈소스 LLM의 산업적 활용을 본격화한 이정표적 모델이다. RLHF 파이프라인의 상세한 기술을 공개하여 안전한 채팅 모델 개발의 로드맵을 제공했다. 이후 Code Llama, Llama 3 등으로 이어지는 Meta의 오픈소스 LLM 전략의 핵심 모델로서, 기업과 연구기관의 LLM 자체 구축 역량을 비약적으로 높였다.