NeurIPS 2022OutstandingCitations: 5,000+

Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

연쇄 사고 프롬프팅은 대규모 언어 모델에서 추론을 이끌어낸다

Jason Wei, Xuezhi Wang, Dale Schuurmans, et al. (2022)

프롬프트에 단계적 추론 과정(chain-of-thought)의 예시를 포함하면, 대규모 언어 모델의 산술, 상식, 기호적 추론 능력이 크게 향상됨을 발견했다.

배경

GPT-3 등 대규모 언어 모델은 few-shot 프롬프팅으로 다양한 태스크를 수행할 수 있었으나, 다단계 추론이 필요한 수학 문제나 논리적 추론 문제에서는 여전히 어려움을 겪었다. 기존 few-shot 프롬프팅은 입력-출력 쌍만 제시했지, 중간 추론 과정을 보여주지 않았다.

핵심 아이디어

Wei 등은 매우 단순하면서도 강력한 아이디어를 제안했다. Few-shot 프롬프트의 예시에서 최종 답만 제시하는 대신, 답에 도달하는 중간 추론 단계를 자연어로 함께 제시하면 모델이 유사한 추론 과정을 생성하며 정확도가 크게 향상된다는 것이다. 이를 chain-of-thought(CoT) 프롬프팅이라 명명했다. 중요한 발견은 이 효과가 충분히 큰 모델(약 100B 파라미터 이상)에서만 나타나는 창발적(emergent) 능력이라는 점이다. 또한 CoT는 모델의 추론 과정을 해석 가능하게 만들어 오류 디버깅을 용이하게 한다.

방법론

GSM8K(초등 수학), SVAMP, AQuA 등의 산술 추론, CommonsenseQA, StrategyQA 등의 상식 추론, 그리고 기호적 추론 벤치마크에서 실험했다. 표준 few-shot 프롬프팅과 동일한 설정에서 예시의 답변 부분에만 추론 체인을 추가하여 비교했다. PaLM 540B, GPT-3 175B, LaMDA 137B 등 다양한 모델에서 검증했다.

주요 결과

PaLM 540B + CoT 프롬프팅은 GSM8K에서 57%의 정확도를 달성하여, 표준 프롬프팅(18%)을 크게 능가하고 당시 미세 조정된 최고 성능 모델과 비교 가능한 수준이었다. 특히 문제가 더 많은 추론 단계를 요구할수록 CoT의 성능 향상 폭이 커지는 것을 확인했다.

임팩트

Chain-of-thought 프롬프팅은 프롬프트 엔지니어링 분야의 가장 영향력 있는 기법 중 하나로 자리잡았다. 이후 Zero-shot CoT('Let's think step by step'), Self-consistency, Tree-of-Thought 등 다양한 확장 연구를 촉발했다. LLM의 추론 능력을 끌어내는 핵심 기법으로서, GPT-4, Claude 등 현대 AI 시스템에서 광범위하게 활용되고 있다.

관련 Foundation 논문

관련 논문