AI 안전성·정렬

AI Safety & Alignment

정렬, 해석 가능성, 레드팀, 거버넌스 연구

10개 논문

20241편

arXiv (Anthropic)300+

Sleeper Agents: Training Deceptive LLMs that Persist Through Safety Training

슬리퍼 에이전트: 안전 훈련에도 지속되는 기만적 LLM 훈련

Evan Hubinger, Carson Denison, Jesse Mu et al. (2024)

20233편

Anthropic Research500+

Towards Monosemanticity: Decomposing Language Models With Dictionary Learning

단의성을 향하여: 사전 학습으로 언어 모델 분해

Trenton Bricken, Adly Templeton, Joshua Batson et al. (2023)

arXiv400+

Representation Engineering: A Top-Down Approach to AI Transparency

표현 공학: AI 투명성에 대한 탑다운 접근법

Andy Zou, Long Phan, Sarah Chen et al. (2023)

arXiv (OpenAI)300+

Weak-to-Strong Generalization: Eliciting Strong Capabilities With Weak Supervision

약-강 일반화: 약한 감독으로 강한 능력 이끌어내기

Collin Burns, Haotian Ye, Dan Klein et al. (2023)

20223편

arXiv1,500+

Constitutional AI: Harmlessness from AI Feedback

헌법적 AI: AI 피드백을 통한 무해성

Yuntao Bai, Saurav Kadavath, Sandipan Kundu et al. (2022)

arXiv2,000+

Training a Helpful and Harmless Assistant with RLHF

RLHF로 도움이 되고 무해한 어시스턴트 학습

Yuntao Bai, Andy Jones, Kamal Ndousse et al. (2022)

arXiv800+

Red Teaming Language Models to Reduce Harms

피해 감소를 위한 언어 모델 레드팀 테스팅

Deep Ganguli, Liane Lovitt, Jackson Kernion et al. (2022)

20211편

ACL 20221,500+

TruthfulQA: Measuring How Models Mimic Human Falsehoods

TruthfulQA: 모델이 인간의 거짓을 모방하는 정도 측정

Stephanie Lin, Jacob Hilton, Owain Evans (2021)

20191편

ICML 20192,000+

Certified Adversarial Robustness via Randomized Smoothing

랜덤 평활화를 통한 인증된 적대적 강건성

Jeremy Cohen, Elan Rosenfeld, J. Zico Kolter (2019)

20141편

ICLR 201515,000+

Explaining and Harnessing Adversarial Examples

적대적 예제의 설명과 활용

Ian J. Goodfellow, Jonathon Shlens, Christian Szegedy (2014)

← 전체 분야 목록으로