arXivCitations: 800+

Red Teaming Language Models to Reduce Harms

피해 감소를 위한 언어 모델 레드팀 테스팅

Deep Ganguli, Liane Lovitt, Jackson Kernion, et al. (2022)

대규모 언어 모델의 유해한 출력을 체계적으로 발견하기 위해 수만 건의 레드팀 공격 데이터셋을 구축하고, 모델 크기, RLHF, 프롬프트 설계가 유해 출력 경향에 미치는 영향을 분석하여 AI 안전성 평가의 표준 방법론을 확립했다.

배경

GPT-3, PaLM 등 대규모 언어 모델의 상용화가 확대되면서, 모델이 생성할 수 있는 유해 콘텐츠(혐오 발언, 범죄 조장, 개인 정보 유출 등)에 대한 우려가 커졌다. RLHF를 통한 정렬(alignment)이 유해 출력을 줄이는 데 효과적이었으나, 정렬된 모델에서도 여전히 어떤 유형의 유해 출력이 가능한지 체계적으로 평가하는 방법론이 부재했다. 사이버보안에서 차용한 '레드팀' 개념을 AI 안전성에 적용할 필요가 있었다.

핵심 아이디어

이 연구는 레드팀 공격을 세 가지 방식으로 대규모 수행한다. 첫째, 비전문가 크라우드 워커가 수동으로 모델의 취약점을 탐색하는 인간 레드팀. 둘째, 학습된 레드팀 언어 모델이 자동으로 공격 프롬프트를 생성하는 AI 레드팀. 셋째, 분류기를 활용하여 유해성 점수를 극대화하는 방향으로 프롬프트를 최적화하는 분류기 기반 레드팀이다. 총 38,961건의 레드팀 공격을 수집하여 22개 유해 카테고리로 분류하고, 모델 크기(2.7B~52B)와 RLHF 적용 여부에 따른 취약성 변화를 체계적으로 분석했다.

방법론

인간 레드팀 실험에서는 크라우드 워커가 AI 어시스턴트와 자유 대화하면서 유해한 응답을 유도하도록 요청받는다. 각 대화 후 유해성을 0-4 척도로 평가하고, 공격 유형을 카테고리화한다. AI 레드팀에서는 별도의 언어 모델을 학습시켜 공격 프롬프트를 자동 생성하며, RL로 유해 응답 유도 성공률을 최대화한다. 평가 대상 모델은 Plain LM, RLHF 모델, 프롬프트로 안전 지시를 받은 모델 등 다양한 변형을 포함한다.

주요 결과

RLHF 모델은 Plain LM 대비 유해 응답 비율이 크게 감소했으나, 충분히 교묘한 공격에는 여전히 취약했다. 흥미롭게도 모델 크기가 커질수록 RLHF 모델은 더 안전해지지만, Plain LM은 오히려 더 유해한 응답을 생성하는 경향을 보였다. 가장 흔한 공격 카테고리는 차별/혐오(25.2%), 범죄 관련(11.3%), 유해 콘텐츠 생성(10.1%)이었다. AI 레드팀은 인간과 다른 유형의 취약점을 발견하여, 두 방법의 상보적 활용이 효과적임을 보여주었다.

임팩트

이 연구는 LLM 안전성 평가를 위한 체계적 레드팀 방법론의 표준을 확립했다. 공개된 레드팀 데이터셋은 후속 안전성 연구의 핵심 자원이 되었으며, 이후 GPT-4, Llama 2, Claude 등 거의 모든 주요 LLM 개발 과정에서 레드팀이 필수 절차로 자리잡았다. AI 레드팀(자동화된 공격)의 개념은 이후 자동 안전성 평가 연구의 기초가 되었고, Anthropic의 Constitutional AI 등 후속 안전성 프레임워크에 직접적으로 기여했다.

관련 Foundation 논문

관련 논문