Training a Helpful and Harmless Assistant with RLHF
RLHF로 도움이 되고 무해한 어시스턴트 학습
Yuntao Bai, Andy Jones, Kamal Ndousse, et al. (2022)
인간 피드백 기반 강화학습(RLHF) 파이프라인을 체계화하여, 유용하면서도 무해한 AI 어시스턴트를 훈련하는 방법을 실증적으로 분석한 논문.
배경
대규모 언어모델은 뛰어난 능력에도 불구하고 유해하거나 부정확한 출력을 생성할 수 있다. 단순한 지시 미세조정만으로는 인간의 선호를 충분히 반영하기 어려웠으며, 유용성(helpfulness)과 무해성(harmlessness)을 동시에 최적화하는 체계적 방법론이 필요했다.
핵심 아이디어
SFT(Supervised Fine-Tuning) → 보상 모델(Reward Model) 학습 → PPO 강화학습의 3단계 파이프라인을 제시했다. 인간 평가자가 모델 응답 쌍에 대해 선호도를 매기고, 이를 기반으로 보상 모델을 학습한다. 유용성과 무해성 각각에 대해 별도의 선호 데이터를 수집하여, 두 목표 간의 파레토 프론티어(Pareto frontier)를 분석했다. 모델 크기가 커질수록 RLHF의 효과가 더 크게 나타남을 발견했다.
방법론
52B 파라미터 모델에 대해 인간 선호 데이터를 수집하고, 유용성과 무해성 각각에 대한 보상 모델을 훈련했다. 이후 PPO를 적용하되, 보상 모델의 가중치를 조절하여 두 목표 간 트레이드오프를 탐색했다.
주요 결과
RLHF 훈련 후 모델은 유용성과 무해성 모두에서 SFT 모델을 크게 앞섰다. 특히 대형 모델에서 alignment tax(정렬 비용)가 낮아지는 경향을 확인했으며, 유용성-무해성의 파레토 최적 조합을 달성할 수 있음을 보였다.
임팩트
RLHF를 AI 안전 분야의 표준 훈련 파이프라인으로 확립했다. InstructGPT, ChatGPT, Claude 등 현대 대화형 AI 시스템의 기반 방법론이 되었으며, 이후 Constitutional AI 등 더 발전된 정렬 기법의 토대가 되었다.