Margin-Aware Preference Optimization for Aligning Diffusion Models Without Reference | 정종헌 교수 연구실 | 고려대학교 수리과학과

|정종헌 교수 연구실

홈

연구 영역

기본 정보

논문·특허

구성원

Article|

인용수 0

·2026

Margin-Aware Preference Optimization for Aligning Diffusion Models Without Reference

Jiwoo Hong, Sayak Paul, Noah Lee, Kashif Rasul, James Thorne, Jongheon Jeong

Proceedings of the AAAI Conference on Artificial Intelligence

초록

DPO와 같은 최신 선호도 정렬 방법은 학습 안정성을 위해 기준 모델(reference model)에 대한 발산(divergence) 정규화를 활용하지만, 이는 우리가 “기준 불일치(reference mismatch)”라고 부르는 근본적인 문제를 야기한다. 본 논문에서는 텍스트-이미지(T2I) 확산 모델을 정렬하는 과정에서 기준 불일치가 초래하는 부정적 영향을 조사하고, 예컨대 새로운 예술 양식을 학습하거나 특정 대상에 대해 개인화하는 경우처럼 동일한 양의 데이터가 주어질 때 기준 불일치가 클수록 효과적인 적응이 저해됨을 보여준다. 우리는 이러한 현상을 텍스트-이미지(T2I) 확산 모델 전반에서 확인하고, 이 제약에서 벗어나는 기준 비의존적(reference-agnostic) 접근법인 여백 인지 선호도 최적화(margin-aware preference optimization, MaPO)를 제안한다. MaPO는 기준에 고정하지 않고 Bradley-Terry 모델 하에서 선호되는 출력과 비선호되는 출력 간의 가능도(likelihood) 여백을 직접 최적화함으로써, 다양한 T2I 과제를 통합된 쌍별 선호도 최적화로 전환한다. 우리는 MaPO의 다재다능함을 다섯 가지의 도전적인 영역에서 검증한다: (1) 안전한 생성, (2) 스타일 적응, (3) 문화적 표현, (4) 개인화, (5) 일반적 선호도 정렬. 실험 결과는 기준 불일치의 심각도가 커질수록 MaPO의 이점이 극적으로 증가하며, DPO와 DreamBooth 같은 특화 방법 모두를 능가함과 동시에 학습 시간을 15% 단축함을 보여준다. 따라서 MaPO는 범용 T2I 적응 과제를 위한 다재다능하면서도 메모리 효율적인 방법으로 자리매김한다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

Pairwise comparisonPreferenceMargin (machine learning)Regularization (linguistics)Adaptation (eye)Divergence (linguistics)

타입

Article

IF / 인용수

- / 0

원문

https://doi.org/10.1609/aaai.v40i6.42476

게재 연도

2026