데이터 비의존 보편적 적대적 교란(Data-free Universal Adversarial Perturbation, UAP)은 데이터 사전지식에 의존하지 않고 무작위 잡음만으로 생성된 단일 교란을 사용하여, 이미지에 무관하게 심층 신경망을 기만하는 공격이다. 그러나 기존의 데이터 비의존 UAP 방법들은 무작위 잡음에 의미(semantic) 내용이 부재하기 때문에 전이 가능성이 제한되는 문제가 자주 발생한다. 이러한 문제를 해결하기 위해, 우리는 학습 과정에서 UAP로부터 의사-의미적(pseudo-semantic) 사전지식을 재귀적으로 추출하여, 데이터 비의존 UAP 프레임워크 내의 의미 내용을 풍부하게 하는 새로운 데이터 비의존 보편 공격 방법을 제안한다. 우리의 접근은 영역 샘플링(region sampling)을 통해 UAP 안에 내재된 잠재 의미 정보를 효과적으로 활용하며, 의미 단서의 부재로 인해 전통적인 데이터 비의존 UAP 방법에서는 일반적으로 비효율적인 입력 변환(input transformations)에서도 성공을 가능하게 하고, 블랙박스 전이 가능성을 유의미하게 향상시킨다. 또한 무작위 샘플링과 변환으로 인해 발생할 수 있는 잠재적 불균형을 완화하기 위해, UAP의 영향을 상대적으로 덜 받는 어려운 예(hard examples)에 더 큰 비중을 두는 표본 재가중(sample reweighting) 기법을 도입한다. ImageNet에 대한 포괄적 실험 결과, 본 방법은 평균 기만률(average fooling rate)에서 상당한 격차로 최첨단 성능을 달성하였고, 기존 데이터 비의존 UAP 방법에 비해 다양한 CNN 아키텍처 전반에서 공격 전이 가능성을 현저히 개선했으며, 나아가 데이터 의존적 UAP 방법을 포함하여 그 성능을 능가한다. 코드는 다음에서 제공된다: https://github.com/ChnanChan/PSP-UAP.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.