데이터프리 보편 적대 교란과 확산 편집 면역화 연구

Data-free Universal Adversarial Perturbation and Diffusion-based Image Editing Immunization

연구 내용

데이터 접근 없이 보편 적대 교란을 학습하고 확산 기반 이미지 편집에 대한 면역화 성능을 확보하는 연구

Data-free Universal Adversarial Perturbation은 단일 교란으로 입력 분류를 교란하지만, 무작위 잡음만으로 생성되므로 의미 정보 부재로 전이성이 제한될 수 있습니다. 본 연구는 UAP 내부에서 pseudo-semantic prior를 재귀적으로 추출하는 학습 절차를 제안하고, region sampling으로 잠재 의미를 보강하며, sample reweighting으로 변환에도 덜 영향을 받는 hard example의 비중을 조정합니다. 또한 diffusion-based image editing에 대해서는 단일 보편 교란으로 원본 의미를 억제하고 편집 파이프라인의 attention을 오도해, data-free 환경에서도 universal image immunization을 수행하도록 설계합니다. 그 결과 black-box 전이를 함께 고려한 방어를 지향합니다.

관련 프로젝트

0건

연구 흐름

초기에는 데이터 없이 랜덤 기반으로 생성되는 보편 적대 교란의 전이 한계를 분석하고, 교란 학습 과정에서 의미 성분을 추출할 수 있는 재귀적 prior 강화 관점을 도입했습니다. 이후에는 의미 추출의 샘플링 불균형과 hard example 편향 문제를 줄이기 위한 reweighting을 결합하여 전이 성능을 끌어올리는 방향으로 발전시켰습니다. 다음 단계에서는 분류·인식 공격에서 확장된 UAP 개념을 diffusion 기반 편집 방어로 전환하고, 단일 교란이 편집 목표 의미를 주입하면서 원본 의미를 덮어쓰는 형태의 universal immunization 프레임워크를 제안했습니다. 최근에는 다양한 diffusion 모델로의 black-box 적용 가능성을 확인했습니다.

활용 가능성

활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.

데이터프리 보안 위협 시나리오 생성
보편 교란 기반 모델 견고성 평가
확산 기반 편집 콘텐츠 무결성 방어
딥페이크 및 무단 편집 리스크 완화
블랙박스 환경 공격-방어 실험 설계
콘텐츠 진위 검증 보조 신호 생성
에지 환경에서의 가벼운 방어 배포
모델별 교란 민감도 비교 분석
AI 편집 파이프라인의 안전 가드레일
영상 배포 단계에서의 위험 사전 차단