적대적 공격(adversarial attack)은 인간이 구별할 수 없는 잡음을 추가하여 분류 모델의 오작동을 유발하는 기법으로, 딥러닝 모델에 위협이 된다. 본 논문에서는 가우시안 과정 회귀(Gaussian process regression)를 이용하여 적대적 이미지를 효율적으로 탐지하는 방법을 제안한다. 기존의 딥러닝 기반 적대적 탐지 방법은 학습을 위해 다수의 적대적 이미지를 필요로 한다. 제안 방법은 가우시안 과정 회귀로부터 추출한 적대적 이미지와 정제(clean) 이미지의 통계적 특징에 기반하여 분류를 수행함으로써, 소수의 이미지로도 이 문제를 극복한다. 이 기법은 분류 모델의 중간 출력 값에 기초하여 가우시안 과정 회귀를 적용함으로써 입력 이미지가 적대적 이미지인지 여부를 판단할 수 있다. 실험 결과, 제안 방법은 강력한 공격(powerful attacks)에 대해 다른 딥러닝 기반 적대적 탐지 방법들보다 더 높은 탐지 성능을 달성함을 보였다. 특히 가우시안 과정 회귀 기반 탐지기는 적대적 예시의 수가 적은 경우 대부분의 공격에서 기준(baseline) 모델보다 더 나은 탐지 성능을 보였다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.