연구 영역
기본 정보
논문·특허
구성원
읽는 시간 · 1분 37초

확산·언어 모델 선호 정렬과 안전 적응의 견고성

Robust Preference Alignment and Safe Adaptation for Diffusion and Language Models

연구 내용

확산 및 언어 모델을 대상으로 레퍼런스 의존성을 줄이거나 과적합을 완화해 안전·적응 성능을 확보하는 연구

생성 모델의 안전성과 적응 성능은 학습 신호 설계와 업데이트 안정성에 의해 좌우됩니다. 본 연구는 diffusion 모델에서 DPO류 방식의 레퍼런스 불일치 문제를 분석하고, 레퍼런스 앵커 없이 preferred/dispreferred 출력 간의 likelihood margin을 직접 최적화하는 MaPO를 제안합니다. 또한 이미지 편집 모델에 의해 복원될 수 있는 보호용 교란에 대해, 노이즈 역변환을 어렵게 만드는 주파수 스펙트럼 조정형 블러 전략을 적용해 악의적 편집 시나리오의 보호 견고성을 강화합니다. 더 나아가 제한된 데이터에서 SFT가 유발하는 spurious reliance와 catastrophic forgetting을 줄이기 위해 undesirable 업데이트에 대한 일관성 규제를 통해 LfU 형태의 정규화를 수행합니다.

관련 연구 성과

관련 논문

4

관련 특허

0

관련 프로젝트

0

연구 흐름

초기 연구는 preference alignment에서 reference mismatch가 적응 학습에 미치는 영향을 체계적으로 정량화하는 데서 출발했습니다. 이후 2024년에는 DPO의 불안정 요인을 피하기 위한 margin-aware preference optimization을 diffusion 모델의 text-to-image 적응에 적용하고, 다양한 도메인을 하나의 pairwise preference 최적화 문제로 재구성하는 방향으로 전개했습니다. 2025년에는 이미지 보호 관점에서 AI 기반 편집이 제공한 역변환 가능성을 분석하고, 주파수 영역에서의 제약을 통해 보호 견고성을 높이는 BlurGuard 연구로 확장했습니다. 2025년 말에는 언어 모델의 제한 데이터 SFT 과적합 문제를 undesirable update 기반 representation 정합으로 완화하는 LfU 연구를 수행했으며, 2026년에는 확산 모델 alignment의 효과를 추가 검증하며 reference-agnostic 설계를 강화하는 흐름을 보였습니다.

활용 가능성

활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.

  • 레퍼런스 비의존 preference alignment
  • text-to-image 스타일 적응
  • 안전 생성 목적 튜닝
  • 이미지 보호용 교란 설계
  • AI 편집 역변환 저항
  • 제한 데이터 SFT 안정화
  • 망각 완화 정규화
  • spurious relationship 억제
  • 생성 모델 견고성 평가
  • 적응 학습 효율화

관련 논문

구분

제목

1

Margin-aware Preference Optimization for Aligning Diffusion Models without Reference

2

Margin-Aware Preference Optimization for Aligning Diffusion Models Without Reference

3

BlurGuard: A Simple Approach for Robustifying Image Protection Against AI-Powered Editing

4

Learning from the Undesirable: Robust Adaptation of Language Models without Forgetting