Certified Adversarial Robustness via Randomized Smoothing
랜덤 평활화를 통한 인증된 적대적 강건성
Jeremy Cohen, Elan Rosenfeld, J. Zico Kolter (2019)
가우시안 노이즈를 입력에 추가하는 랜덤 평활화(randomized smoothing)를 통해, 임의의 분류기를 l2 노름 하에서 수학적으로 증명 가능한 강건성 보증을 갖는 분류기로 변환하는 프레임워크를 제안했다.
배경
적대적 예제에 대한 방어 연구는 크게 경험적 방어(empirical defense)와 인증된 방어(certified defense)로 나뉜다. 경험적 방어(적대적 훈련 등)는 알려진 공격에 효과적이지만, 더 강력한 공격이 등장하면 무력화되는 군비 경쟁의 한계가 있었다. 인증된 방어는 어떤 공격에도 수학적으로 보증되는 강건성을 제공하지만, 기존 방법들(SMT 솔버, 반정부호 프로그래밍 등)은 소규모 네트워크에만 적용 가능했다. ImageNet 규모에서 작동하는 확장 가능한 인증 방어가 절실했다.
핵심 아이디어
랜덤 평활화의 핵심 아이디어는 놀라울 정도로 단순하다. 기본 분류기 f에 대해, 입력 x에 가우시안 노이즈 N(0, σ²I)를 여러 번 추가하여 각각에 대한 예측을 수행하고, 다수결(majority vote)로 최종 예측을 결정하는 평활 분류기 g를 구성한다. 이 평활 분류기 g는 자동으로 l2 강건성 인증을 획득한다. 구체적으로, g(x)가 클래스 c_A를 반환하고, c_A에 대한 예측 확률의 하한이 p_A, 차상위 클래스의 확률 상한이 p_B일 때, 반경 R = (σ/2)(Φ^{-1}(p_A) - Φ^{-1}(p_B)) 내의 모든 섭동에 대해 예측이 유지됨이 수학적으로 보증된다(Φ^{-1}은 가우시안 역CDF).
방법론
인증 절차는 두 단계로 이루어진다. 첫째, 몬테카를로 샘플링으로 가장 가능성 높은 클래스 c_A를 식별한다(100개 노이즈 샘플 사용). 둘째, 더 많은 노이즈 샘플(10,000~100,000개)로 c_A의 확률 하한 p_A를 네이만-피어슨 보조정리 기반의 가설 검정으로 추정하고, 이로부터 인증 반경을 계산한다. 기본 분류기의 학습은 가우시안 노이즈 증강 데이터로 수행하며, σ가 클수록 인증 반경은 커지지만 클린 정확도는 낮아지는 트레이드오프가 있다.
주요 결과
ImageNet에서 σ=0.25일 때 l2 반경 0.5 이내의 섭동에 대해 49%의 인증 정확도를 달성했고, σ=0.50일 때 l2 반경 1.0 이내에서 37%의 인증 정확도를 보였다. 이는 기존의 어떤 인증 방어보다도 대규모 데이터셋에서 훨씬 높은 성능이었다. CIFAR-10에서도 σ=0.25, 반경 0.25 기준 61%의 인증 정확도를 달성하여, 확장 가능한 인증 방어의 가능성을 입증했다.
임팩트
랜덤 평활화는 인증된 적대적 강건성 연구에서 가장 영향력 있는 프레임워크가 되었으며, 그 단순성과 확장성으로 인해 후속 연구의 표준 기반이 되었다. SmoothAdv, MACER, Denoised Smoothing 등 다양한 개선 기법이 제안되었고, l2 이외의 노름이나 의미적 변환에 대한 인증으로 확장되었다. 이 연구는 AI 안전성에서 '수학적 보증'의 중요성을 강조하며, 단순한 경험적 평가를 넘어 형식적 검증이 가능한 방향으로 연구를 이끌었다.