AI Paper Research

모델의 내부 표현(representation)을 읽고 제어하는 탑다운 접근법인 표현 공학(Representation Engineering)을 제안하여, 진실성, 공정성, 해로움 등 고수준 개념을 신경망 활성화에서 식별하고 조종할 수 있음을 보여주었다.

배경

AI 해석가능성(interpretability) 연구는 대부분 개별 뉴런이나 회로를 분석하는 바텀업(bottom-up) 접근이었다. 그러나 이 방법은 수십억 개의 뉴런을 가진 대규모 모델에서 확장성이 제한적이며, 개별 뉴런의 역할 분석에서 모델의 전체적 행동을 이해하기까지의 간극이 컸다. 기계적 해석가능성(mechanistic interpretability)은 특정 회로의 기능을 밝히는 데 성공했으나, '모델이 진실을 말하는가?', '편향된 판단을 하는가?' 같은 고수준 안전성 질문에 직접 답하기 어려웠다.

핵심 아이디어

표현 공학은 해석가능성을 개별 뉴런이 아닌 '고수준 인지적 현상의 표현(representation)' 수준에서 접근한다. 핵심 방법은 두 단계이다. 첫째, 대비 쌍(contrast pair)을 구성한다. 예를 들어 진실성을 연구하려면 진실한 진술과 거짓 진술의 쌍을 다수 수집한다. 모델이 이 대비 쌍을 처리할 때의 활성화 차이를 PCA로 분석하면, 해당 개념을 인코딩하는 '표현 방향(representation direction)'을 추출할 수 있다. 둘째, 이 방향 벡터를 모델의 순전파 과정에서 더하거나 빼면 해당 개념을 강화하거나 억제할 수 있다(representation control). 이는 모델의 가중치를 수정하지 않고도 행동을 제어하는 추론 시점의 개입이다.

방법론

대비 쌍 생성은 ChatGPT 등으로 자동화한다. 예를 들어 '행복' 개념을 위해 행복한 시나리오와 슬픈 시나리오 쌍을 생성한다. 모델의 각 레이어에서 대비 쌍에 대한 잔차 스트림(residual stream) 활성화 차이를 수집하고, PCA 첫 번째 주성분으로 해당 개념의 방향 벡터를 추출한다. 제어 시에는 활성화에 α·v(v는 방향 벡터, α는 강도)를 더하여 순전파를 수정한다. 읽기(reading)는 선형 프로브(linear probe)를 사용하며, 다양한 개념(진실성, 도덕, 편향, 감정, 권력 추구 등)에 대해 실험한다.

주요 결과

진실성 방향 벡터의 선형 프로브는 모델이 진실한 진술을 하는지 86% 이상의 정확도로 예측할 수 있었다. 표현 제어를 통해 Llama-2-Chat의 진실성을 TruthfulQA에서 유의미하게 향상시킬 수 있었고, '해로움' 방향을 억제하면 유해 응답 생성이 크게 감소했다. 감정, 공정성 등 다양한 고수준 개념에 대해서도 유사한 읽기-제어가 가능했으며, 대비 쌍 구성에 따라 개념의 세분화된 조종도 가능했다.

임팩트

표현 공학은 바텀업 해석가능성과 보완적인 탑다운 패러다임을 확립하여, 대규모 모델의 안전성을 실용적으로 분석하고 제어할 수 있는 새로운 도구를 제공했다. 이후 활성화 조종(activation steering), 진실성 프로브, 행동 제어 등의 후속 연구가 활발히 진행되고 있다. 이 접근법은 RLHF와 같은 학습 시점의 정렬 기법과 보완적으로 사용될 수 있어, AI 안전성의 다층 방어 전략에서 중요한 위치를 차지한다.

AI Paper Research

Representation Engineering: A Top-Down Approach to AI Transparency

배경

핵심 아이디어

방법론

주요 결과

임팩트

관련 Foundation 논문

관련 논문