무작위 스무딩 기반 인증 견고성 학습

Certified Robustness via Randomized Smoothing

연구 내용

가우시안 노이즈 스무딩과 디노이즈 파이프라인을 결합해 인증 가능한 적대적 견고성을 확보하는 연구

임의의 분류기가 가우시안 노이즈 하에서 예측을 평균내도록 구성하면 l2-적대 교란에 대해 인증 가능한 견고성을 유도할 수 있습니다. 본 연구는 스무딩에서 나타나는 정확도-견고성 간 상충을 데이터 수준에서 제어하고, 디노이즈 스무딩에서는 디노이저가 만든 환각과 분포 이동 문제를 줄이도록 학습 목표를 설계합니다. 또한 표현 학습 단계에서 닌전스(nuisance) 정보를 함께 모델링해 분포 변화와 여러 신뢰도 지표에서의 취약성을 완화합니다. 대규모 모델에도 적용 가능한 스케일링 관점을 함께 추구합니다.

관련 프로젝트

0건

연구 흐름

초기에는 randomized smoothing의 공리적 구조를 유지하면서, 학습 단계에서 강건성과 정확도 사이의 트레이드오프를 어떻게 조절할지에 대한 방법론을 정리했습니다. 2023년에는 샘플별로 견고성 이점을 예측하는 프록시를 활용해 smoothed classifier의 인증 견고성을 향상시키는 학습 방식을 제안했습니다. 같은 해 denoised smoothing 확장에서는 단일 디노이저로 여러 노이즈 스케일의 스무딩을 선택적으로 적용하는 multi-scale smoothing을 도입해 높은 노이즈에서도 성능을 유지하도록 했습니다. 이후 2023년에는 information bottleneck을 닌전스 확장 형태로 재구성해 표현의 일반성과 인증 견고성을 동시에 개선하는 흐름으로 발전했습니다. 2024년에는 off-the-shelf 모델에 대해 confidence-aware한 디노이즈 선택과 미세조정 전략을 결합해 인증 견고성을 안정적으로 끌어올리는 연구를 수행했습니다.

활용 가능성

활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.

l2 인증 견고성 분류기
디노이즈 스무딩 모델링
환각 억제 기반 인증 학습
오프더셸프 적대 방어
스케일 선택형 스무딩
표현 학습의 닌전스 분해
분포 이동 내 강건성 개선
신뢰도 지표 통합 평가
대규모 모델용 견고성 파이프라인
정확도-견고성 트레이드오프 제어