주요 논문
5
*2026년 기준 최근 6년 이내 논문에 한해 Impact Factor가 표기됩니다.
1
Article
|
인용수 0
·
2026Margin-Aware Preference Optimization for Aligning Diffusion Models Without Reference
Jiwoo Hong, Sayak Paul, Noah Lee, Kashif Rasul, James Thorne, Jongheon Jeong
Proceedings of the AAAI Conference on Artificial Intelligence
DPO와 같은 최신 선호도 정렬 방법은 학습 안정성을 위해 기준 모델(reference model)에 대한 발산(divergence) 정규화를 활용하지만, 이는 우리가 “기준 불일치(reference mismatch)”라고 부르는 근본적인 문제를 야기한다. 본 논문에서는 텍스트-이미지(T2I) 확산 모델을 정렬하는 과정에서 기준 불일치가 초래하는 부정적 영향을 조사하고, 예컨대 새로운 예술 양식을 학습하거나 특정 대상에 대해 개인화하는 경우처럼 동일한 양의 데이터가 주어질 때 기준 불일치가 클수록 효과적인 적응이 저해됨을 보여준다. 우리는 이러한 현상을 텍스트-이미지(T2I) 확산 모델 전반에서 확인하고, 이 제약에서 벗어나는 기준 비의존적(reference-agnostic) 접근법인 여백 인지 선호도 최적화(margin-aware preference optimization, MaPO)를 제안한다. MaPO는 기준에 고정하지 않고 Bradley-Terry 모델 하에서 선호되는 출력과 비선호되는 출력 간의 가능도(likelihood) 여백을 직접 최적화함으로써, 다양한 T2I 과제를 통합된 쌍별 선호도 최적화로 전환한다. 우리는 MaPO의 다재다능함을 다섯 가지의 도전적인 영역에서 검증한다: (1) 안전한 생성, (2) 스타일 적응, (3) 문화적 표현, (4) 개인화, (5) 일반적 선호도 정렬. 실험 결과는 기준 불일치의 심각도가 커질수록 MaPO의 이점이 극적으로 증가하며, DPO와 DreamBooth 같은 특화 방법 모두를 능가함과 동시에 학습 시간을 15% 단축함을 보여준다. 따라서 MaPO는 범용 T2I 적응 과제를 위한 다재다능하면서도 메모리 효율적인 방법으로 자리매김한다.
https://doi.org/10.1609/aaai.v40i6.42476
Pairwise comparison
Preference
Margin (machine learning)
Regularization (linguistics)
Adaptation (eye)
Divergence (linguistics)
2
Preprint
|
인용수 0
·
2025Learning from the Undesirable: Robust Adaptation of Language Models without Forgetting
Nam, Yunhun, Jaehyung Kim, Jongheon Jeong
ArXiv.org
언어 모델(LM)은 종종 하위 작업을 위한 능력을 특화하기 위해 지도 미세조정(SFT)을 통해 적응된다. 그러나 미세조정 데이터가 제한된 전형적인 상황(예: 사전학습에 비해)에서는 SFT가 LM을 과적합시키고, 그 결과 대상 작업 내에서 나타나는 성가신(spurious) 패턴에 의존하게 하거나, 좁은 특수화의 부작용으로 다른 전반적으로 유용한 능력을 저해할 수 있다. 본 논문에서는 제한된 데이터로 LM을 미세조정할 때 과적합 문제를 완화하기 위한 SFT용의 간단하면서도 효과적인 정규화 기법인 학습-으로부터-바람직하지-않은-것(Learning-from-the-Undesirable, LfU)을 제안한다. 구체적으로, 우리는 미세조정 과정이 “바람직하지 않은(undesirable)” 모델 업데이트에 대해 견고한 해결책을 선호하도록 미세조정 과정을 정규화하는 것을 목표로 하며, 예를 들어 모델을 바람직하지 않은 행동으로 이끄는 그래디언트 상승(gradient ascent) 단계 등을 들 수 있다. 이를 위해 우리는 바람직하지 않은 업데이트 이후의 모델 내부 표현을 직접적으로 정렬하는 새로운 형태의 일관성 정규화(consistency regularization)를 제안한다. 바람직하지 않은 업데이트를 통한 표현 수준의 데이터 증강(representation-level data augmentation)을 활용함으로써, LfU는 제한된 데이터 하에서의 일반화를 효과적으로 촉진한다. 다양한 LM 하위 작업에 대한 실험 결과, LfU는 사전학습 지식을 보존하면서도 적응성을 향상시키는 효과적인 사전(prior)으로 작용함을 보여준다. 예를 들어, 동일한 데이터셋에서 바닐라 SFT에 비해 LfU로 학습한 우리의 LM은 수학 과제에서 평균 16.8%의 향상을 달성했으며, 해당 바닐라 SFT는 심지어 그 과제들에서 성능 저하를 초래하였다. 또한 LfU는 프롬프트 변형(prompt variations)에 대한 강건성도 향상되었는데, 예컨대 SFT에 비해 출력 성능에서 표준편차(standard deviation)를 92.1% 낮추어, 그 유연한 효과를 강조한다.
http://arxiv.org/abs/2511.13052
Overfitting
Spurious relationship
Adaptability
Robustness (evolution)
Regularization (linguistics)
Forgetting
Language model
Decorrelation
Domain adaptation
3
Preprint
|
인용수 0
·
2025BlurGuard: A Simple Approach for Robustifying Image Protection Against AI-Powered Editing
Jinsu Kim, Nam, Yunhun, Minseon Kim, Sangpil Kim, Jongheon Jeong
ArXiv.org
최근 텍스트-이미지(text-to-image) 모델의 발전은 강력한 이미지 편집 기법을 도구로서 더 널리 노출시켜, 악의적 사용 가능성에 대한 우려를 높이고 있다. 이러한 위협에 대응하기 위한 새롭게 부상하는 연구 흐름은, 공개되기 전에 이미지에 ‘보호(protective)’ 적대적 잡음을 삽입하여, 이후 텍스트-이미지 모델을 사용한 편집 시도가 이를 방해받도록 하는 데 초점을 맞춘다. 그러나 후속 연구들은 이러한 적대적 잡음이 종종 ‘역변환(reversed)’이 비교적 쉽게 가능함을 보여주었는데, 예를 들어 JPEG 압축과 같은 단순한 기법으로도 가능하다는 점이 밝혀져 이 접근법의 실용성에 의문이 제기된다. 본 논문에서는 이미지 보호를 위한 적대적 잡음이 기존 연구의 주요 초점이었던 단순한 무지각성(자각 불가능함)에 더해, 되돌릴 수 없어야(irreversible), 즉 원본 이미지가 숨겨져 있는 경우 잡음으로서 탐지가 어렵도록 해야 한다고 주장한다. 우리는 잡음 역변환 기법에 대한 이미지 보호 방법의 견고성을 향상시키기 위한 놀랍도록 단순한 방법을 제안한다. 구체적으로, 전체 주파수 스펙트럼을 조정하기 위해 잡음에 대해 영역별 적응적(adaptive) 가우시안 블러(Gaussian blur)를 적용한다. 광범위한 실험을 통해, 본 방법이 다양한 이미지 편집 시나리오에서 다수의 역변환 기법에 대해 기존 방법들의 샘플별 최악-경우(per-sample worst-case) 보호 성능을 일관되게 향상시키는 동시에, 지각(perceptual) 지표 관점에서 잡음으로 인한 품질 저하를 감소시킴을 보여준다. 코드는 https://github.com/jsu-kim/BlurGuard 에서 제공된다.
http://arxiv.org/abs/2511.00143
Image editing
Noise (video)
Robustness (evolution)
Image quality
Gaussian noise
Image (mathematics)
Image restoration
Adversarial system
Focus (optics)
4
Preprint
|
인용수 0
·
2024Confidence-aware Denoised Fine-tuning of Off-the-shelf Models for Certified Robustness
Suhyeok Jang, Seojin Kim, Jinwoo Shin, Jongheon Jeong
arXiv (Cornell University)
심층학습 분야의 주목할 만한 발전은 예컨대 대규모 사전학습 모델과 같은 다수의 범용(on-the-shelf) 분류기의 출현으로 이어졌다. 그러나 이러한 분류기는 일반적으로 정제된 데이터로 학습되기 때문에 적대적 공격(adversarial attacks)에 취약성을 그대로 유지한다. 그럼에도 불구하고, 우수한 성능과 전이 가능성(transferability) 덕분에 범용 분류기는 실제 환경에서 여전히 가치가 높으며, 이에 대해 사후적(post-hoc) 방식으로 적대적 강건성(adversarial robustness)을 제공하기 위한 추가 연구가 요구된다. 최근 제안된 방법인 denoised smoothing은 분류기 앞단에 디노이저(denoiser) 모델을 활용하여 추가 학습 없이도 증명 가능한(유도 가능한) 강건성을 확보한다. 하지만 디노이저는 종종 환각(hallucination)을 생성하는데, 이는 원래 할당되었던 클래스의 의미(semantic)를 잃은 이미지들을 만들어내며, 그 결과 강건성이 저하된다. 또한 노이즈-및-디노이즈(noise-and-denoise) 절차는 원래 분포로부터의 상당한 분포 이동(distribution shift)을 유발하여, denoised smoothing 프레임워크가 차선의(sub-optimal) 강건성을 달성하게 만든다. 본 논문에서는 범용 분류기의 증명 가능한 강건성을 향상시키기 위한 새로운 미세조정(fine-tuning) 기법인 Fine-Tuning with Confidence-Aware Denoised Image Selection (FT-CADIS)을 제안한다. FT-CADIS는 denoised smoothing 동안 환각 이미지를 식별하는 데 범용 분류기의 신뢰도(confidence)가 효과적으로 활용될 수 있다는 관찰에서 영감을 받았다. 이를 바탕으로, 이러한 환각 이미지들을 처리하고 디노이즈된 이미지로부터의 미세조정(fine-tuning) 안정성을 개선하기 위한 신뢰도 인식(confidence-aware) 훈련 목적을 개발한다. 이와 같은 방식으로, 적대적 강건성에 유익한 이미지들만을 사용하여 분류기를 미세조정할 수 있다. 또한 이러한 미세조정은 분류기 파라미터의 소수(fraction)만을 업데이트함으로써 수행될 수 있음을 확인하였다. 광범위한 실험 결과, FT-CADIS는 다양한 벤치마크에서 denoised smoothing 방법들 가운데 모든 l_2-적대적 반경(adversary radius)에 대해 최첨단(state-of-the-art) 증명 가능한 강건성을 입증하였다.
http://arxiv.org/abs/2411.08933
Off the shelf
Robustness (evolution)
Certification
Computer science
Shelf life
Engineering
Economics
Mechanical engineering
Chemistry
5
Preprint
|
인용수 0
·
2024Margin-aware Preference Optimization for Aligning Diffusion Models without Reference
Jiwoo Hong, Sayak Paul, Noah Lee, Kashif Rasul, James H. Thorne, Jongheon Jeong
arXiv (Cornell University)
현대의 선호도 정렬 방법(예: DPO)은 학습 안정성을 위해 기준 모델(reference model)에 대한 발산(divergence) 정규화를 기반으로 하지만, 이는 우리가 “기준 불일치(reference mismatch)”라고 부르는 근본적인 문제를 야기한다. 본 논문에서는 텍스트-이미지(T2I) 확산 모델 정렬에서 기준 불일치가 미치는 부정적 영향을 탐구하며, 동일한 양의 데이터가 주어질 때에도 기준 불일치가 클수록 예컨대 새로운 예술 양식을 학습하거나 특정 대상에 대해 개인화하는 상황에서 효과적인 적응이 저해됨을 보인다. 우리는 이러한 현상을 텍스트-이미지(T2I) 확산 모델 전반에서 확인하고, 이 제약에서 벗어나는 기준-비의존(reference-agnostic) 접근법인 여유(margin)를 인지하는 선호도 최적화(margin-aware preference optimization, MaPO)를 제안한다. MaPO는 기준에 고정(anchoring)하지 않은 채 Bradley-Terry 모델 하에서 선호(preferred) 출력과 비선호(dispreferred) 출력 간의 가능도(likelihood) 여유를 직접 최적화함으로써, 다양한 T2I 과제를 하나의 통일된 쌍별 선호도 최적화(pairwise preference optimization)로 변환한다. 우리는 MaPO의 범용성을 다섯 가지의 도전적인 영역에서 검증한다: (1) 안전한 생성, (2) 스타일 적응, (3) 문화적 표현, (4) 개인화, (5) 일반적인 선호도 정렬. 연구 결과는 기준 불일치의 심각도가 커질수록 MaPO의 이점이 극적으로 증대되며, DPO뿐 아니라 DreamBooth와 같은 특화 방법도 능가하는 동시에 학습 시간을 15% 감소시킴을 보여준다. 따라서 MaPO는 일반적인 T2I 적응 과제를 위한 다재다능하면서도 메모리 효율적인 방법으로 나타난다.
http://arxiv.org/abs/2406.06424
Margin (machine learning)
Preference
Computer science
Diffusion
Mathematical optimization
Mathematics
Statistics
Machine learning
Physics