StarFT: Robust Fine-tuning of Zero-shot Models via Spuriosity Alignment | 정종헌 교수 연구실 | 고려대학교 수리과학과

|정종헌 교수 연구실

홈

연구 영역

기본 정보

논문·특허

구성원

Preprint|

인용수 0

·2025

StarFT: Robust Fine-tuning of Zero-shot Models via Spuriosity Alignment

Younghyun Kim, Jongheon Jeong, Sangkyung Kwak, Kyungmin Lee, Ju Ho Lee, Jinwoo Shin

ArXiv.org

초록

데이터로부터 견고한 표현을 학습하는 데에는 종종 스케일이 필요하며, 이는 CLIP과 같은 최근의 제로샷 모델들의 성공으로 이어졌다. 그러나 이러한 모델을 다른 다운스트림 과제(예: 더 작은 스케일)에서 미세조정할 때, 얻어진 견고성이 쉽게 저하될 수 있다. 선행 연구들은 종종 이 현상을 도메인 이동(domain shift)과 연관 지어, 가능한 한 원래의 도메인을 보존하는 것을 목표로 하는 미세조정 방법을 개발해 왔다. 하지만 다른 맥락에서, 제한된 데이터로 미세조정된 모델은 배경이나 질감과 같은 인간에게는 무관한(허위적) 특징(spurious features)을 학습하는 경향 또한 있다. 본 논문에서는 허위적 정렬(Spurious Textual Alignment Regularization)을 통한 미세조정인 StarFT를 제안하며, 이는 허위성을 학습하지 못하도록 방지함으로써 제로샷 모델의 미세조정을 통해 견고성을 향상시키는 새로운 프레임워크이다. 우리는 허위성이 주입된 라벨(spuriosity-injected labels)에 대한 출력 분포를 기존 제로샷 모델의 분포와 정렬하는 정규화를 도입하여, 모델이 이러한 기술(description)과의 거리가 멀어질수록 관련 없는 특징을 추가로 추출하도록 유도되지 않도록 한다. 이를 위해, 잠재적으로 혼동을 유발할 수 있는 특징을 부각하는 대안적 텍스트 기술을 생성함으로써 이러한 허위성이 주입된 라벨을 얻기 위해 최근의 언어 모델을 활용한다. 광범위한 실험은 StarFT의 견고한 일반화와 그로부터 나타나는 특성을 검증한다: 제로샷 군(group) 견고성 및 향상된 제로샷 분류 성능. 특히, 다른 견고 미세조정 기준선들이 성능이 오히려 저하되는 Waterbirds 그룹 이동 시나리오에서 StarFT는 최악-군(worst-group) 정확도와 평균 정확도를 각각 14.30% 및 3.02% 향상시킨다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

Robustness (evolution)Spurious relationshipLeverage (statistics)OverfittingRegularization (linguistics)Data modelingSynthetic dataStatistical model

타입

Preprint

IF / 인용수

- / 0

원문

http://arxiv.org/abs/2505.13232

게재 연도

2025