Constitutional AI: Harmlessness from AI Feedback
헌법적 AI: AI 피드백을 통한 무해성
Yuntao Bai, Saurav Kadavath, Sandipan Kundu, et al. (2022)
헌법적 원칙(Constitution)을 기반으로 AI가 스스로 출력을 평가·수정하게 하여, 인간 라벨러 없이도 무해하고 유용한 AI를 훈련하는 RLAIF 방법론을 제시한 논문.
배경
RLHF는 인간 피드백에 크게 의존하지만 유해성 판단을 위한 인간 라벨링은 비용이 높고 일관성이 떨어질 수 있다. 또한 인간 라벨러가 모델의 교묘한 유해 출력을 놓칠 수 있어 확장성에 한계가 있었다. 이에 원칙 기반의 자동화된 피드백 체계가 요구되었다.
핵심 아이디어
Constitutional AI는 두 단계로 구성된다. 첫째, 'Critique → Revision' 단계에서 모델이 자신의 출력을 헌법적 원칙에 따라 비판하고 수정한다. 둘째, RLAIF(Reinforcement Learning from AI Feedback) 단계에서 AI가 생성한 선호 데이터로 보상 모델을 학습하여 PPO를 수행한다. 핵심은 '무해성', '정직성' 등의 원칙을 명시적 텍스트로 제공하여 모델이 스스로 판단 기준을 내재화하도록 한 것이다. 이를 통해 인간 라벨러 없이도 무해성을 크게 향상시키면서 유용성은 유지할 수 있었다.
방법론
SFT 모델에서 유해한 응답을 유도한 뒤, 헌법 원칙에 따라 self-critique와 revision을 반복하여 개선된 데이터를 생성한다. 이 데이터로 SFT를 수행한 후, AI가 쌍별 비교로 선호도를 매겨 보상 모델을 학습하고 PPO로 최종 정책을 최적화한다.
주요 결과
인간 피드백 없이 학습한 모델이 RLHF 모델과 동등하거나 더 나은 무해성을 달성했다. 동시에 유용성(helpfulness)은 유지되어 무해성-유용성 트레이드오프를 효과적으로 완화했다.
임팩트
RLAIF 패러다임을 개척하여 AI 정렬(alignment)의 확장성을 크게 높였다. 이후 Claude 시리즈를 비롯한 상용 AI 시스템의 안전성 파이프라인에 직접적 영향을 미쳤으며, 원칙 기반 자기 개선이라는 새로운 연구 방향을 열었다.