arXivCitations: 1,000+

Gemma: Open Models Based on Gemini Research and Technology

Gemma: Gemini 연구와 기술 기반의 오픈 모델

Gemma Team, Thomas Mesnard, Cassidy Hardin, et al. (2024)

Google DeepMind가 Gemini 연구 기술을 기반으로 2B와 7B 규모의 경량 오픈 모델 Gemma를 공개하여, 동일 크기 대비 최고 수준의 성능을 달성하고 책임 있는 AI 개발 도구킷을 함께 제공했다.

배경

Llama 2, Mistral 등 오픈소스 LLM이 큰 성공을 거두면서 Google도 자사의 최첨단 연구 기술을 기반으로 한 오픈 모델 공개의 필요성을 인식했다. 특히 2B와 7B 같은 작은 규모의 모델은 개인 기기나 제한된 리소스 환경에서 활용 가능하여, 연구 접근성과 실용적 배포 측면에서 중요했다. 동시에 오픈 모델의 안전한 배포를 위한 체계적 프레임워크도 필요했다.

핵심 아이디어

Gemma는 Gemini 모델과 동일한 연구 및 기술을 활용하되, 2B와 7B의 작은 규모에 최적화된 오픈 모델이다. 핵심 특징은 세 가지이다. 첫째, 6조 토큰이라는 방대한 학습 데이터(주로 영어 웹 문서, 코드, 수학)를 사용하여 Chinchilla 최적 대비 훨씬 많은 데이터로 과잉 학습(over-training)시켜 작은 모델의 성능을 극대화한다. 둘째, Gemini 아키텍처의 개선 사항(Multi-Query Attention(2B), Grouped-Query Attention(7B), RoPE, GeGLU 활성화, RMSNorm)을 적용한다. 셋째, 사전학습 모델과 함께 지시 미세조정(instruction-tuned) 모델, 안전성 분류기, 디버깅 도구를 포함한 Responsible Generative AI Toolkit을 함께 공개한다.

방법론

디코더 전용 Transformer 아키텍처를 기반으로, 2B 모델은 18층/2048 히든/8 헤드/256K 어휘, 7B 모델은 28층/3072 히든/16 헤드/256K 어휘로 구성했다. 6T 토큰의 데이터를 SentencePiece 토크나이저(256K 어휘)로 처리하고, 8192 토큰 문맥 길이로 학습했다. 지시 미세조정 모델은 SFT와 RLHF를 적용하여 개발했으며, 안전성 필터링과 레드팀 평가를 거쳤다.

주요 결과

Gemma 7B는 MMLU에서 64.3%, HellaSwag 81.2%, GSM8K 46.4%를 달성하여, 동일 크기의 Llama 2 7B(45.3%, 77.2%, 14.6%)와 Mistral 7B(62.5%, 81.0%, 37.8%)를 크게 능가했다. Gemma 2B도 MMLU 42.3%로 2B 규모 모델 중 최고 성능을 기록했다. 코드 생성(HumanEval), 수학 추론, 상식 추론 등 전 영역에서 동일 크기 대비 우수한 결과를 보여주었다.

임팩트

Gemma는 Google DeepMind의 첨단 기술을 오픈 생태계로 가져온 의미 있는 첫 걸음이다. 작은 모델도 충분한 데이터와 좋은 아키텍처로 강력한 성능을 달성할 수 있음을 재확인하며, 특히 온디바이스 AI와 리소스 제약 환경에서의 LLM 활용 가능성을 넓혔다. Gemma 2, CodeGemma, PaliGemma 등으로 이어지는 Gemma 패밀리의 시작점이며, 책임 있는 AI 도구킷의 동시 공개는 안전한 오픈소스 AI 배포의 모범 사례를 제시했다.

관련 Foundation 논문

관련 논문