Q-FAKER: Query-free Hard Black-box Attack via Controlled Generation | 이지형 교수 연구실 | 성균관대학교 소프트웨어학과

|이지형 교수 연구실

홈

연구 영역

기본 정보

논문·특허

과제

구성원

Article|

인용수 0

·2025

Q-FAKER: Query-free Hard Black-box Attack via Controlled Generation

CheolWon Na, YunSeok Choi, Jee-Hyong Lee

초록

언어 모델의 취약성을 검증하기 위해 많은 적대적 공격(adversarial attack) 접근법이 제안되어 왔다. 그러나 이러한 방법들은 다수의 질의(query)와 대상 모델에 관한 정보를 필요로 한다. 심지어 블랙박스(black-box) 공격 방법도 대상 모델의 출력 정보가 필요하다. 대상 모델이 폐쇄되어 있고 접근할 수 없는 강력한 블랙박스 설정(hard black-box settings)과 같은 현실 세계에서는 적용이 어렵다. 최근 제안된 강력한 블랙박스 공격(hard black-box attacks) 역시 많은 질의가 필요하며, 적대적 생성기(adversarial generator)를 학습하는 데 극도로 높은 비용이 든다. 이러한 과제를 해결하기 위해 본 연구에서는 대상 모델에 접근하지 않고 적대적 예시(adversarial examples)를 생성하는 새롭고 효율적인 방법인 Qfaker (Query-free Hard Black-box Attacker)를 제안한다. 대상 모델에 접근을 회피하기 위해 대체(surrogate) 모델을 사용한다. 대체 모델은 대상 비의존적 공격(target-agnostic attack)을 위한 적대적 문장(adversarial sentences)을 생성한다. 이 과정에서 우리는 제어된 생성(controlled generation) 기법을 활용한다. 제안한 방법은 8개 데이터셋에서 평가한다. 실험 결과는 높은 전이성(transferability)과 생성된 적대적 예시의 높은 품질을 포함하여 본 방법의 효과를 입증하며, 강력한 블랙박스 환경에서의 실용성을 증명한다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

Computer scienceBlack boxS-boxAlgorithmCryptographyBlock cipherArtificial intelligence

타입

Article

IF / 인용수

- / 0

원문

https://doi.org/10.18653/v1/2025.findings-naacl.463

게재 연도

2025