멀티모달 입력(텍스트+이미지)을 처리할 수 있는 대규모 언어 모델 GPT-4를 공개하여, 전문가 수준의 시험 성적과 다양한 벤치마크에서 획기적 성능을 달성했다.
배경
GPT-3와 ChatGPT(InstructGPT)의 성공 이후, LLM의 능력을 한층 더 높이기 위한 연구가 진행되었다. 특히 복잡한 추론, 코딩, 수학, 전문 지식 등에서의 한계를 극복하고, 텍스트뿐 아니라 이미지도 이해할 수 있는 멀티모달 능력의 필요성이 대두되었다.
핵심 아이디어
GPT-4는 텍스트와 이미지를 모두 입력으로 받아 텍스트를 생성하는 대규모 멀티모달 모델이다. OpenAI는 경쟁적 고려와 안전 문제로 아키텍처, 모델 크기, 학습 데이터 등의 세부 사항을 공개하지 않았다. 대신 GPT-4의 능력을 다양한 시험과 벤치마크를 통해 실증적으로 보여주었다. 특히 주목할 점은 학습 과정에서의 예측 가능성(predictable scaling)인데, 소규모 모델의 성능으로부터 GPT-4의 최종 성능을 높은 정확도로 예측할 수 있는 인프라를 구축했다는 것이다. 또한 RLHF를 통한 안전성 향상 작업도 체계적으로 수행했다.
방법론
GPT-4는 Transformer 기반 사전 학습 모델로, 다음 토큰 예측으로 학습된 후 RLHF로 정렬되었다. 구체적인 아키텍처와 학습 세부 사항은 비공개이다. 안전성을 위해 도메인 전문가의 적대적 테스트(red teaming)와 규칙 기반 보상 모델(RBRM) 등의 기법을 활용했다.
주요 결과
GPT-4는 미국 변호사 시험에서 상위 약 10%(GPT-3.5는 하위 10%), SAT 수학에서 700/800, GRE 정량 추론에서 163/170을 달성했다. 학술 벤치마크에서는 MMLU 86.4%(few-shot), HellaSwag 95.3% 등 기존 모델을 크게 상회하는 결과를 보였다. 이미지 입력을 활용한 시각적 추론에서도 우수한 성능을 나타냈다.
임팩트
GPT-4는 LLM의 실용적 능력이 전문가 수준에 도달할 수 있음을 보여주며 AI 산업 전반에 큰 영향을 미쳤다. 교육, 법률, 의료 등 다양한 분야에서의 AI 활용 가능성을 입증했고, 멀티모달 AI의 시대를 본격적으로 열었다. 동시에 기술 세부 사항 비공개에 대한 학술 커뮤니티의 투명성 논의를 촉발했다.