현대의 선호도 정렬 방법(예: DPO)은 학습 안정성을 위해 기준 모델(reference model)에 대한 발산(divergence) 정규화를 기반으로 하지만, 이는 우리가 “기준 불일치(reference mismatch)”라고 부르는 근본적인 문제를 야기한다. 본 논문에서는 텍스트-이미지(T2I) 확산 모델 정렬에서 기준 불일치가 미치는 부정적 영향을 탐구하며, 동일한 양의 데이터가 주어질 때에도 기준 불일치가 클수록 예컨대 새로운 예술 양식을 학습하거나 특정 대상에 대해 개인화하는 상황에서 효과적인 적응이 저해됨을 보인다. 우리는 이러한 현상을 텍스트-이미지(T2I) 확산 모델 전반에서 확인하고, 이 제약에서 벗어나는 기준-비의존(reference-agnostic) 접근법인 여유(margin)를 인지하는 선호도 최적화(margin-aware preference optimization, MaPO)를 제안한다. MaPO는 기준에 고정(anchoring)하지 않은 채 Bradley-Terry 모델 하에서 선호(preferred) 출력과 비선호(dispreferred) 출력 간의 가능도(likelihood) 여유를 직접 최적화함으로써, 다양한 T2I 과제를 하나의 통일된 쌍별 선호도 최적화(pairwise preference optimization)로 변환한다. 우리는 MaPO의 범용성을 다섯 가지의 도전적인 영역에서 검증한다: (1) 안전한 생성, (2) 스타일 적응, (3) 문화적 표현, (4) 개인화, (5) 일반적인 선호도 정렬. 연구 결과는 기준 불일치의 심각도가 커질수록 MaPO의 이점이 극적으로 증대되며, DPO뿐 아니라 DreamBooth와 같은 특화 방법도 능가하는 동시에 학습 시간을 15% 감소시킴을 보여준다. 따라서 MaPO는 일반적인 T2I 적응 과제를 위한 다재다능하면서도 메모리 효율적인 방법으로 나타난다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.