데이터로부터 견고한 표현을 학습하는 데에는 종종 스케일이 필요하며, 이는 CLIP과 같은 최근의 제로샷 모델들의 성공으로 이어졌다. 그러나 이러한 모델을 다른 다운스트림 과제(예: 더 작은 스케일)에서 미세조정할 때, 얻어진 견고성이 쉽게 저하될 수 있다. 선행 연구들은 종종 이 현상을 도메인 이동(domain shift)과 연관 지어, 가능한 한 원래의 도메인을 보존하는 것을 목표로 하는 미세조정 방법을 개발해 왔다. 하지만 다른 맥락에서, 제한된 데이터로 미세조정된 모델은 배경이나 질감과 같은 인간에게는 무관한(허위적) 특징(spurious features)을 학습하는 경향 또한 있다. 본 논문에서는 허위적 정렬(Spurious Textual Alignment Regularization)을 통한 미세조정인 StarFT를 제안하며, 이는 허위성을 학습하지 못하도록 방지함으로써 제로샷 모델의 미세조정을 통해 견고성을 향상시키는 새로운 프레임워크이다. 우리는 허위성이 주입된 라벨(spuriosity-injected labels)에 대한 출력 분포를 기존 제로샷 모델의 분포와 정렬하는 정규화를 도입하여, 모델이 이러한 기술(description)과의 거리가 멀어질수록 관련 없는 특징을 추가로 추출하도록 유도되지 않도록 한다. 이를 위해, 잠재적으로 혼동을 유발할 수 있는 특징을 부각하는 대안적 텍스트 기술을 생성함으로써 이러한 허위성이 주입된 라벨을 얻기 위해 최근의 언어 모델을 활용한다. 광범위한 실험은 StarFT의 견고한 일반화와 그로부터 나타나는 특성을 검증한다: 제로샷 군(group) 견고성 및 향상된 제로샷 분류 성능. 특히, 다른 견고 미세조정 기준선들이 성능이 오히려 저하되는 Waterbirds 그룹 이동 시나리오에서 StarFT는 최악-군(worst-group) 정확도와 평균 정확도를 각각 14.30% 및 3.02% 향상시킨다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.