arXivCitations: 7,000+

PaLM: Scaling Language Modeling with Pathways

PaLM: Pathways를 활용한 언어 모델링 스케일링

Aakanksha Chowdhery, Sharan Narang, Jacob Devlin, et al. (2022)

Google의 Pathways 시스템을 활용하여 540B 파라미터의 PaLM을 학습시키고, 수백 개의 언어 이해 및 생성 태스크에서 획기적 성능을 달성하며 대규모 모델에서만 나타나는 창발적 능력(emergent abilities)을 체계적으로 분석했다.

배경

GPT-3 이후 대규모 언어 모델의 스케일링이 활발히 진행되었으나, 수천 개의 TPU를 효율적으로 활용하는 학습 인프라의 한계와 모델 규모 증가에 따른 새로운 능력의 출현(emergence) 현상에 대한 체계적 이해가 부족했다. Chinchilla가 컴퓨트 최적 학습의 중요성을 보여주었으나, 가장 큰 모델에서만 가능한 능력의 경계는 아직 충분히 탐구되지 않았다.

핵심 아이디어

PaLM(Pathways Language Model)은 두 가지 핵심 기여를 한다. 첫째, Google의 Pathways 시스템을 통해 6,144개의 TPU v4 칩에서 효율적으로 540B 모델을 학습하여, 대규모 분산 학습의 새로운 표준을 제시한다. 둘째, 모델 규모에 따른 성능 변화를 8B, 62B, 540B 세 가지 크기에서 체계적으로 분석하여, 불연속적 성능 향상(discontinuous improvement)이 나타나는 태스크를 발견한다. 특히 수학적 추론, 상식 추론, 코드 생성 등에서 540B 모델이 62B 대비 비선형적으로 큰 성능 향상을 보이는 창발적 능력을 관찰했다.

방법론

밀집(dense) Transformer 디코더 아키텍처에 SwiGLU 활성화, RoPE 위치 인코딩, multi-query 어텐션, 입력-출력 임베딩 공유 등을 적용했다. 780B 토큰(웹 문서, 책, Wikipedia, 코드, 대화 등 다국어 데이터)으로 학습했다. Pathways의 데이터 및 모델 병렬화를 결합하여 6,144개 TPU v4에서 57.8%의 하드웨어 효율(MFU)을 달성했다.

주요 결과

PaLM 540B는 29개 NLU 벤치마크 중 28개에서 미세조정 없이 당시 최고 성능을 달성했다. BIG-Bench의 150개 태스크 중 다수에서 인간 평균을 상회했으며, GSM8K 수학 추론에서 chain-of-thought 프롬프팅으로 58.1%를 달성하여 미세조정 최고 성능과 비교 가능한 수준이었다. 코드 생성에서도 Codex와 경쟁 가능한 성능을 보여주었다.

임팩트

PaLM은 대규모 밀집 모델의 스케일링이 여전히 효과적임을 보여주는 동시에, 창발적 능력이라는 개념을 실증적으로 정립하여 LLM 연구의 방향성에 큰 영향을 미쳤다. Pathways 시스템을 통한 대규모 분산 학습 방법론은 이후 Gemini 등 Google 후속 모델의 기반이 되었다. PaLM-2는 Google의 주력 LLM으로 발전하여 Bard(현 Gemini) 서비스의 핵심 엔진으로 활용되었다.

관련 Foundation 논문

관련 논문