연구 영역
기본 정보
논문·특허
과제
구성원
Article|
인용수 0
·2025
Q-FAKER: Query-free Hard Black-box Attack via Controlled Generation
CheolWon Na, YunSeok Choi, Jee-Hyong Lee
초록

언어 모델의 취약성을 검증하기 위해 많은 적대적 공격(adversarial attack) 접근법이 제안되어 왔다. 그러나 이러한 방법들은 다수의 질의(query)와 대상 모델에 관한 정보를 필요로 한다. 심지어 블랙박스(black-box) 공격 방법도 대상 모델의 출력 정보가 필요하다. 대상 모델이 폐쇄되어 있고 접근할 수 없는 강력한 블랙박스 설정(hard black-box settings)과 같은 현실 세계에서는 적용이 어렵다. 최근 제안된 강력한 블랙박스 공격(hard black-box attacks) 역시 많은 질의가 필요하며, 적대적 생성기(adversarial generator)를 학습하는 데 극도로 높은 비용이 든다. 이러한 과제를 해결하기 위해 본 연구에서는 대상 모델에 접근하지 않고 적대적 예시(adversarial examples)를 생성하는 새롭고 효율적인 방법인 Qfaker (Query-free Hard Black-box Attacker)를 제안한다. 대상 모델에 접근을 회피하기 위해 대체(surrogate) 모델을 사용한다. 대체 모델은 대상 비의존적 공격(target-agnostic attack)을 위한 적대적 문장(adversarial sentences)을 생성한다. 이 과정에서 우리는 제어된 생성(controlled generation) 기법을 활용한다. 제안한 방법은 8개 데이터셋에서 평가한다. 실험 결과는 높은 전이성(transferability)과 생성된 적대적 예시의 높은 품질을 포함하여 본 방법의 효과를 입증하며, 강력한 블랙박스 환경에서의 실용성을 증명한다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드
Computer scienceBlack boxS-boxAlgorithmCryptographyBlock cipherArtificial intelligence
타입
Article
IF / 인용수
- / 0
게재 연도
2025