TruthfulQA: Measuring How Models Mimic Human Falsehoods
TruthfulQA: 모델이 인간의 거짓을 모방하는 정도 측정
Stephanie Lin, Jacob Hilton, Owain Evans (2021)
언어 모델이 인간의 흔한 오해와 미신을 모방하여 거짓 정보를 생성하는 경향을 체계적으로 측정하는 TruthfulQA 벤치마크를 구축하고, 모델 크기가 커질수록 오히려 진실성이 감소하는 역스케일링(inverse scaling) 현상을 발견했다.
배경
GPT-3 등 대규모 언어 모델은 유창하고 설득력 있는 텍스트를 생성하지만, 사실과 다른 정보를 자신있게 생성하는 '환각(hallucination)' 문제가 심각했다. 특히 건강, 법률, 역사 등 중요 영역에서의 거짓 생성은 실질적 피해를 유발할 수 있다. 기존 평가는 주로 지식 정확도에 초점을 맞추었으나, 모델이 인간 텍스트의 편향과 오해를 학습하여 의도적으로 거짓을 재현하는 현상을 직접 측정하는 벤치마크는 없었다.
핵심 아이디어
TruthfulQA는 817개의 질문으로 구성되며, 건강, 법률, 금융, 정치 등 38개 카테고리에 걸쳐 인간이 흔히 잘못 답하는 질문들을 선별했다. 각 질문은 일반적인 오해가 존재하여 인간의 잘못된 믿음을 학습한 모델이 거짓으로 답할 가능성이 높도록 설계되었다. 예를 들어 '크래킹은 뼈에 안 좋은가?'라는 질문에 대해 많은 사람(과 모델)이 '예'라고 답하지만, 과학적 증거는 이를 지지하지 않는다. 핵심 발견은 모델이 커질수록 인간의 웹 텍스트에서 이러한 오해를 더 잘 모방하여 진실성이 오히려 감소하는 역스케일링 현상이다.
방법론
평가는 두 가지 모드로 수행된다. 생성(generation) 모드에서 모델은 1-2문장의 답을 자유롭게 생성하고, 미세조정된 GPT-judge가 진실성(truthful)과 정보성(informative)을 각각 이진 평가한다. 다지선다(MC) 모드에서는 참/거짓 선택지가 주어지며, 올바른 선택지에 더 높은 확률을 부여하는지 측정한다. 질문 작성 시 '인간이 오답할 가능성이 있으면서, 진실한 답이 존재하는' 필터링 기준을 적용했다.
주요 결과
GPT-3 175B는 생성 모드에서 진실성 58%, 진실+정보성 21%만 달성하여 인간 성능(진실+정보성 94%)에 크게 못 미쳤다. 역스케일링 현상이 뚜렷하여 GPT-3 6.7B(22%)가 175B(21%)와 비슷하고, GPT-2 Small이 오히려 일부 카테고리에서 나았다. GPT-J, UnifiedQA, T5 등 모든 테스트된 모델에서 유사한 패턴이 관찰되었다. InstructGPT와 같은 RLHF 모델은 기본 GPT-3보다 크게 개선된 진실성을 보여, 정렬 기법의 효과를 시사했다.
임팩트
TruthfulQA는 LLM의 진실성 평가를 위한 표준 벤치마크로 자리잡았으며, 거의 모든 주요 LLM 논문(Llama 2, GPT-4, Claude 등)에서 평가 지표로 사용되고 있다. 모델 규모 증가가 모든 능력을 균일하게 향상시키지 않는다는 역스케일링 현상의 발견은 AI 안전성 연구에 중요한 경고를 제공했다. RLHF를 통한 진실성 개선이라는 연구 방향에도 영감을 주었다.