Mixtral of Experts
Mixtral: 전문가 혼합 모델
Albert Q. Jiang, Alexandre Sablayrolles, Antoine Roux, et al. (2024)
희소 전문가 혼합(Sparse Mixture of Experts) 아키텍처를 활용한 Mixtral 8x7B를 공개하여, 각 토큰마다 8개 전문가 중 2개만 활성화함으로써 GPT-3.5 수준의 성능을 13B 파라미터 활성화 비용으로 달성했다.
배경
대규모 언어 모델의 성능은 파라미터 수에 따라 향상되지만, 추론 비용도 비례하여 증가한다는 근본적 트레이드오프가 있었다. Mixture of Experts(MoE) 아키텍처는 총 파라미터 수를 늘리되 각 입력에 대해 일부만 활성화하는 방식으로 이 트레이드오프를 완화할 수 있는 잠재력이 있었다. GShard, Switch Transformer 등이 MoE를 탐구했으나, 오픈소스 고성능 MoE 모델은 부재했다.
핵심 아이디어
Mixtral 8x7B는 각 Transformer 레이어의 피드포워드 블록을 8개의 전문가(expert) 네트워크로 대체하고, 라우터(router) 네트워크가 각 토큰에 대해 상위 2개 전문가를 선택하여 출력을 가중합산하는 Sparse Mixture of Experts 구조를 채택한다. 총 파라미터는 46.7B이지만, 각 토큰 처리 시 실제 활성화되는 파라미터는 약 12.9B에 불과하다. 이를 통해 밀집 모델 대비 동일한 추론 속도에서 훨씬 더 많은 지식을 모델에 저장할 수 있다. 라우터의 전문가 선택은 학습 과정에서 자동으로 최적화되며, 특정 전문가가 특정 유형의 토큰이나 주제에 특화되는 경향이 관찰된다.
방법론
Mistral 7B를 기반으로 각 레이어의 FFN을 8개 전문가로 대체했다. 라우터는 소프트맥스 게이팅 함수로 구현되어 상위 2개 전문가를 선택한다. 전문가 병렬화를 통해 8개 전문가를 서로 다른 GPU에 분산 배치할 수 있다. 32K 토큰의 문맥 길이를 지원하며, Sliding Window Attention을 활용한다. DPO(Direct Preference Optimization)로 정렬한 Mixtral 8x7B-Instruct 버전도 함께 공개했다.
주요 결과
Mixtral 8x7B는 MMLU에서 70.6%, HellaSwag 84.4%, ARC-Challenge 66.4%를 달성하여 Llama 2 70B(69.8%, 87.3%, 67.3%)와 동등하거나 근소한 차이를 보이면서 추론 속도는 6배 빠르다. 코드 생성(HumanEval 40.2%), 수학(GSM8K 74.4%) 등에서도 경쟁력 있는 성능을 보였다. GPT-3.5 Turbo와 비교 시 대부분의 벤치마크에서 동등하거나 우수한 결과를 달성했다.
임팩트
Mixtral은 오픈소스 MoE 언어 모델의 실용성을 대규모로 입증하여, 효율적 LLM 아키텍처 연구에 새로운 방향을 제시했다. Mistral AI가 오픈소스 LLM 분야의 주요 플레이어로 부상하는 계기가 되었으며, 이후 DeepSeek-MoE, Qwen-MoE, DBRX 등 다양한 MoE 모델 개발을 촉진했다. 추론 효율성과 성능의 균형이라는 실용적 관점에서 LLM 아키텍처 선택의 패러다임을 변화시켰다.