NeurIPS 2022Citations: 8,000+

Training language models to follow instructions with human feedback

인간 피드백으로 지시를 따르도록 언어 모델 학습

Long Ouyang, Jeff Wu, Xu Jiang, et al. (2022)

인간 피드백을 활용한 강화 학습(RLHF)으로 GPT-3를 미세 조정하여, 사용자의 의도를 더 정확히 따르면서 유해한 출력을 줄이는 InstructGPT를 개발했다.

배경

GPT-3와 같은 대규모 언어 모델은 프롬프트에 따라 다양한 태스크를 수행할 수 있었으나, 사용자의 의도와 다른 응답을 생성하거나, 거짓 정보를 만들어내거나, 유해한 콘텐츠를 출력하는 문제가 빈번했다. 이는 언어 모델의 학습 목표(다음 토큰 예측)가 '사용자에게 유용하고 안전한 응답 생성'이라는 실제 목표와 괴리가 있기 때문이었다.

핵심 아이디어

InstructGPT는 세 단계의 학습 과정을 통해 언어 모델을 인간의 의도에 정렬(align)한다. 첫째, 인간이 작성한 시연 데이터로 지도 학습 미세 조정(SFT)을 수행한다. 둘째, 모델이 생성한 여러 응답에 대해 인간 평가자가 순위를 매긴 비교 데이터로 보상 모델(RM)을 학습한다. 셋째, 학습된 보상 모델을 사용하여 PPO(Proximal Policy Optimization) 알고리즘으로 정책을 최적화한다. 이 과정에서 1.3B 파라미터의 InstructGPT가 175B의 GPT-3보다 인간 평가에서 선호되는 놀라운 결과를 보여주었다.

방법론

총 40명의 계약 레이블러가 참여하여 시연 데이터와 비교 데이터를 생성했다. SFT 단계에서 약 13,000개의 프롬프트-응답 쌍으로 학습하고, RM 단계에서 약 33,000개의 비교 데이터로 6B 보상 모델을 학습했다. PPO 단계에서는 31,000개의 프롬프트를 사용하여 정책을 최적화하되, 원래 언어 모델 분포에서 너무 벗어나지 않도록 KL 패널티를 부과했다.

주요 결과

인간 평가에서 1.3B InstructGPT의 출력이 175B GPT-3 대비 압도적으로 선호되었다. TruthfulQA 벤치마크에서 진실성이 향상되었고, 유해한 출력 생성이 감소했다. 다만 코딩 태스크 등 일부 영역에서는 기존 GPT-3 대비 성능 저하(alignment tax)가 관찰되기도 했다.

임팩트

InstructGPT는 RLHF를 통한 AI 정렬의 실용성을 대규모로 입증한 획기적 연구이다. ChatGPT의 직접적 기반이 되었으며, 이후 거의 모든 상용 LLM이 RLHF 또는 유사한 정렬 기법을 채택하게 만들었다. '도움이 되고, 해가 없고, 정직한' AI라는 정렬 목표를 실용적으로 구현하는 방법론의 표준을 제시했다.

관련 Foundation 논문

관련 논문