ICLR 2015Citations: 15,000+

Explaining and Harnessing Adversarial Examples

적대적 예제의 설명과 활용

Ian J. Goodfellow, Jonathon Shlens, Christian Szegedy (2014)

신경망의 선형성이 적대적 예제의 근본 원인임을 규명하고, 입력에 손실 함수의 기울기 방향으로 작은 섭동을 가하는 Fast Gradient Sign Method(FGSM)를 제안하여 효율적인 적대적 공격과 적대적 훈련(adversarial training)을 가능하게 했다.

배경

Szegedy et al.(2014)이 신경망에 인간이 감지할 수 없는 미세한 섭동을 가하면 모델이 완전히 다른 예측을 한다는 적대적 예제 현상을 처음 발견했으나, 그 원인에 대한 이해가 부족했다. 초기 가설은 신경망의 고도한 비선형성과 과적합이 적대적 예제를 유발한다고 보았으나, 이는 현상을 정확히 설명하지 못했다. 또한 기존의 적대적 예제 생성 방법(L-BFGS 기반)은 계산 비용이 높아 대규모 적대적 훈련에 적용하기 어려웠다.

핵심 아이디어

핵심 통찰은 적대적 예제가 신경망의 비선형성이 아니라 오히려 '선형성'에서 기인한다는 것이다. 고차원 입력 공간에서 선형 모델 w^T x에 각 차원마다 ε만큼의 작은 섭동을 가하면, 총 섭동 효과는 εn(n은 입력 차원)으로 차원 수에 비례하여 누적된다. 현대 심층 신경망은 ReLU, LSTM 등 의도적으로 선형적 동작을 하도록 설계되어 있으므로, 이 선형적 누적 효과에 취약하다. 이 통찰을 바탕으로 FGSM은 손실 함수 J(θ, x, y)에 대한 입력의 기울기의 부호 방향으로 ε 크기의 섭동을 한 번에 가하는 단일 스텝 공격 방법이다: x_adv = x + ε·sign(∇_x J(θ, x, y)).

방법론

FGSM은 역전파 한 번만으로 적대적 예제를 생성하므로, 대규모 데이터셋에서 효율적으로 적대적 훈련을 수행할 수 있다. 적대적 훈련은 각 학습 반복에서 현재 모델에 대한 적대적 예제를 생성하고, 원본과 적대적 예제 모두에서 올바른 예측을 하도록 학습한다. 구체적으로 목적함수는 J̃(θ, x, y) = αJ(θ, x, y) + (1-α)J(θ, x+ε·sign(∇_x J), y)로, 원본 손실과 적대적 손실의 가중합이다. ImageNet 규모에서도 적용 가능한 확장성을 갖추고 있다.

주요 결과

MNIST에서 FGSM 공격은 소프트맥스 회귀 모델의 오류율을 99.9%까지 증가시키며, 맥스아웃 네트워크도 89.4%의 오류율을 보였다. 적대적 훈련을 적용하면 FGSM 공격에 대한 오류율이 17.9%로 크게 감소했다. 선형 모델과 심층 모델 모두에서 유사한 적대적 취약성이 관찰되어, 비선형성 가설을 반박하고 선형성 가설을 지지하는 실증적 증거를 제공했다. 적대적 예제의 모델 간 전이성(transferability)도 확인되었다.

임팩트

이 논문은 적대적 머신러닝 분야를 사실상 창시한 연구로, FGSM은 PGD, C&W 등 후속 공격 방법의 기반이 되었다. 적대적 훈련은 현재까지도 가장 효과적인 적대적 방어 기법 중 하나로 사용되고 있다. 선형성 가설은 신경망의 강건성 연구에 대한 이론적 프레임워크를 제공했으며, 15,000회 이상 인용되어 AI 안전성 연구의 초석이 되었다. 이 연구는 GAN(Generative Adversarial Networks)의 학습 안정성 이해에도 기여했다.

관련 Foundation 논문

관련 논문