확산·언어 모델 선호 정렬과 안전 적응의 견고성

Robust Preference Alignment and Safe Adaptation for Diffusion and Language Models

연구 내용

확산 및 언어 모델을 대상으로 레퍼런스 의존성을 줄이거나 과적합을 완화해 안전·적응 성능을 확보하는 연구

생성 모델의 안전성과 적응 성능은 학습 신호 설계와 업데이트 안정성에 의해 좌우됩니다. 본 연구는 diffusion 모델에서 DPO류 방식의 레퍼런스 불일치 문제를 분석하고, 레퍼런스 앵커 없이 preferred/dispreferred 출력 간의 likelihood margin을 직접 최적화하는 MaPO를 제안합니다. 또한 이미지 편집 모델에 의해 복원될 수 있는 보호용 교란에 대해, 노이즈 역변환을 어렵게 만드는 주파수 스펙트럼 조정형 블러 전략을 적용해 악의적 편집 시나리오의 보호 견고성을 강화합니다. 더 나아가 제한된 데이터에서 SFT가 유발하는 spurious reliance와 catastrophic forgetting을 줄이기 위해 undesirable 업데이트에 대한 일관성 규제를 통해 LfU 형태의 정규화를 수행합니다.

관련 프로젝트

0건

연구 흐름

초기 연구는 preference alignment에서 reference mismatch가 적응 학습에 미치는 영향을 체계적으로 정량화하는 데서 출발했습니다. 이후 2024년에는 DPO의 불안정 요인을 피하기 위한 margin-aware preference optimization을 diffusion 모델의 text-to-image 적응에 적용하고, 다양한 도메인을 하나의 pairwise preference 최적화 문제로 재구성하는 방향으로 전개했습니다. 2025년에는 이미지 보호 관점에서 AI 기반 편집이 제공한 역변환 가능성을 분석하고, 주파수 영역에서의 제약을 통해 보호 견고성을 높이는 BlurGuard 연구로 확장했습니다. 2025년 말에는 언어 모델의 제한 데이터 SFT 과적합 문제를 undesirable update 기반 representation 정합으로 완화하는 LfU 연구를 수행했으며, 2026년에는 확산 모델 alignment의 효과를 추가 검증하며 reference-agnostic 설계를 강화하는 흐름을 보였습니다.

활용 가능성

활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.

레퍼런스 비의존 preference alignment
text-to-image 스타일 적응
안전 생성 목적 튜닝
이미지 보호용 교란 설계
AI 편집 역변환 저항
제한 데이터 SFT 안정화
망각 완화 정규화
spurious relationship 억제
생성 모델 견고성 평가
적응 학습 효율화