AI 안전성·정렬
AI Safety & Alignment
정렬, 해석 가능성, 레드팀, 거버넌스 연구
10개 논문
20241편
20233편
Anthropic Research500+
Towards Monosemanticity: Decomposing Language Models With Dictionary Learning
단의성을 향하여: 사전 학습으로 언어 모델 분해
Trenton Bricken, Adly Templeton, Joshua Batson et al. (2023)
arXiv400+
Representation Engineering: A Top-Down Approach to AI Transparency
표현 공학: AI 투명성에 대한 탑다운 접근법
Andy Zou, Long Phan, Sarah Chen et al. (2023)
arXiv (OpenAI)300+
Weak-to-Strong Generalization: Eliciting Strong Capabilities With Weak Supervision
약-강 일반화: 약한 감독으로 강한 능력 이끌어내기
Collin Burns, Haotian Ye, Dan Klein et al. (2023)
20223편
arXiv1,500+
Constitutional AI: Harmlessness from AI Feedback
헌법적 AI: AI 피드백을 통한 무해성
Yuntao Bai, Saurav Kadavath, Sandipan Kundu et al. (2022)
arXiv2,000+
Training a Helpful and Harmless Assistant with RLHF
RLHF로 도움이 되고 무해한 어시스턴트 학습
Yuntao Bai, Andy Jones, Kamal Ndousse et al. (2022)
arXiv800+
Red Teaming Language Models to Reduce Harms
피해 감소를 위한 언어 모델 레드팀 테스팅
Deep Ganguli, Liane Lovitt, Jackson Kernion et al. (2022)