Confidence-aware Denoised Fine-tuning of Off-the-shelf Models for Certified Robustness | 정종헌 교수 연구실 | 고려대학교 수리과학과

|정종헌 교수 연구실

홈

연구 영역

기본 정보

논문·특허

구성원

Preprint|

인용수 0

·2024

Confidence-aware Denoised Fine-tuning of Off-the-shelf Models for Certified Robustness

Suhyeok Jang, Seojin Kim, Jinwoo Shin, Jongheon Jeong

arXiv (Cornell University)

초록

심층학습 분야의 주목할 만한 발전은 예컨대 대규모 사전학습 모델과 같은 다수의 범용(on-the-shelf) 분류기의 출현으로 이어졌다. 그러나 이러한 분류기는 일반적으로 정제된 데이터로 학습되기 때문에 적대적 공격(adversarial attacks)에 취약성을 그대로 유지한다. 그럼에도 불구하고, 우수한 성능과 전이 가능성(transferability) 덕분에 범용 분류기는 실제 환경에서 여전히 가치가 높으며, 이에 대해 사후적(post-hoc) 방식으로 적대적 강건성(adversarial robustness)을 제공하기 위한 추가 연구가 요구된다. 최근 제안된 방법인 denoised smoothing은 분류기 앞단에 디노이저(denoiser) 모델을 활용하여 추가 학습 없이도 증명 가능한(유도 가능한) 강건성을 확보한다. 하지만 디노이저는 종종 환각(hallucination)을 생성하는데, 이는 원래 할당되었던 클래스의 의미(semantic)를 잃은 이미지들을 만들어내며, 그 결과 강건성이 저하된다. 또한 노이즈-및-디노이즈(noise-and-denoise) 절차는 원래 분포로부터의 상당한 분포 이동(distribution shift)을 유발하여, denoised smoothing 프레임워크가 차선의(sub-optimal) 강건성을 달성하게 만든다. 본 논문에서는 범용 분류기의 증명 가능한 강건성을 향상시키기 위한 새로운 미세조정(fine-tuning) 기법인 Fine-Tuning with Confidence-Aware Denoised Image Selection (FT-CADIS)을 제안한다. FT-CADIS는 denoised smoothing 동안 환각 이미지를 식별하는 데 범용 분류기의 신뢰도(confidence)가 효과적으로 활용될 수 있다는 관찰에서 영감을 받았다. 이를 바탕으로, 이러한 환각 이미지들을 처리하고 디노이즈된 이미지로부터의 미세조정(fine-tuning) 안정성을 개선하기 위한 신뢰도 인식(confidence-aware) 훈련 목적을 개발한다. 이와 같은 방식으로, 적대적 강건성에 유익한 이미지들만을 사용하여 분류기를 미세조정할 수 있다. 또한 이러한 미세조정은 분류기 파라미터의 소수(fraction)만을 업데이트함으로써 수행될 수 있음을 확인하였다. 광범위한 실험 결과, FT-CADIS는 다양한 벤치마크에서 denoised smoothing 방법들 가운데 모든 $l_2$ -적대적 반경(adversary radius)에 대해 최첨단(state-of-the-art) 증명 가능한 강건성을 입증하였다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

Off the shelfRobustness (evolution)CertificationComputer scienceShelf lifeEngineeringEconomicsMechanical engineeringChemistry

타입

Preprint

IF / 인용수

- / 0

원문

http://arxiv.org/abs/2411.08933

게재 연도

2024