언어 모델(LM)은 종종 하위 작업을 위한 능력을 특화하기 위해 지도 미세조정(SFT)을 통해 적응된다. 그러나 미세조정 데이터가 제한된 전형적인 상황(예: 사전학습에 비해)에서는 SFT가 LM을 과적합시키고, 그 결과 대상 작업 내에서 나타나는 성가신(spurious) 패턴에 의존하게 하거나, 좁은 특수화의 부작용으로 다른 전반적으로 유용한 능력을 저해할 수 있다. 본 논문에서는 제한된 데이터로 LM을 미세조정할 때 과적합 문제를 완화하기 위한 SFT용의 간단하면서도 효과적인 정규화 기법인 학습-으로부터-바람직하지-않은-것(Learning-from-the-Undesirable, LfU)을 제안한다. 구체적으로, 우리는 미세조정 과정이 “바람직하지 않은(undesirable)” 모델 업데이트에 대해 견고한 해결책을 선호하도록 미세조정 과정을 정규화하는 것을 목표로 하며, 예를 들어 모델을 바람직하지 않은 행동으로 이끄는 그래디언트 상승(gradient ascent) 단계 등을 들 수 있다. 이를 위해 우리는 바람직하지 않은 업데이트 이후의 모델 내부 표현을 직접적으로 정렬하는 새로운 형태의 일관성 정규화(consistency regularization)를 제안한다. 바람직하지 않은 업데이트를 통한 표현 수준의 데이터 증강(representation-level data augmentation)을 활용함으로써, LfU는 제한된 데이터 하에서의 일반화를 효과적으로 촉진한다. 다양한 LM 하위 작업에 대한 실험 결과, LfU는 사전학습 지식을 보존하면서도 적응성을 향상시키는 효과적인 사전(prior)으로 작용함을 보여준다. 예를 들어, 동일한 데이터셋에서 바닐라 SFT에 비해 LfU로 학습한 우리의 LM은 수학 과제에서 평균 16.8%의 향상을 달성했으며, 해당 바닐라 SFT는 심지어 그 과제들에서 성능 저하를 초래하였다. 또한 LfU는 프롬프트 변형(prompt variations)에 대한 강건성도 향상되었는데, 예컨대 SFT에 비해 출력 성능에서 표준편차(standard deviation)를 92.1% 낮추어, 그 유연한 효과를 강조한다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.