AI Paper Research

AI 논문 조사 및 정리

AI 안전성·정렬 — 2024

1편의 논문

arXiv (Anthropic)300+

Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training

슬리퍼 에이전트: 안전 훈련에도 지속되는 기만적 LLM 훈련

Evan Hubinger, Carson Denison, Jesse Mu et al. (2024)

← AI 안전성·정렬 전체