정종헌 교수 연구실 | 고려대학교 수리과학과

정종헌 연구실

고려대학교 수리과학과 정종헌 교수

Certified Robustness

Randomized Smoothing

Denoised Smoothing

|정종헌 교수 연구실

홈

연구 영역

기본 정보

논문·특허

구성원

홈

정종헌 연구실

고려대학교 수리과학과 정종헌 교수

정종헌 연구실은 수리과학 기반의 수리적 관점에서 기계학습의 견고성 및 일반화 문제를 다룹니다. 특히 randomized smoothing과 denoised smoothing을 중심으로 인증 가능한 적대적 강건성을 확보하는 학습 목표를 설계하고, 분포 이동에 취약한 표현을 닌전스 정보 관점에서 개선합니다. 또한 CLIP 계열 비전-언어 정렬을 이상 분류·분할에 적용해 제로샷/퓨샷 조건에서 라벨 비용을 낮추는 연구를 수행합니다. 생성 모델 영역에서는 reference-agnostic preference optimization, 안전을 위한 이미지 보호, 제한 데이터에서의 망각 완화 정규화까지 확장하여 적응의 안정성을 검토합니다.

Certified RobustnessRandomized SmoothingDenoised SmoothingAnomaly SegmentationCLIP

대표 연구 분야

연구 영역 전체보기

비전-언어 기반 제로/퓨샷 이상 탐지 및 분할

Vision-Language Zero-/Few-Shot Anomaly Classification and Segmentation

연구 분야 상세보기

비전-언어 기반 제로/퓨샷 이상 탐지 및 분할

Vision-Language Zero-/Few-Shot Anomaly Classification and Segmentation

연구 분야 상세보기

무작위 스무딩 기반 인증 견고성 학습

Certified Robustness via Randomized Smoothing

연구 분야 상세보기

확산·언어 모델 선호 정렬과 안전 적응의 견고성

Robust Preference Alignment and Safe Adaptation for Diffusion and Language Models

연구 분야 상세보기

연구 성과 추이

표시된 성과는 수집된 데이터 기준으로 산출되며, 일부 차이가 있을 수 있습니다.

주요 논문

논문 전체보기

Article

인용수 0

2026

Margin-Aware Preference Optimization for Aligning Diffusion Models Without Reference

Jiwoo Hong, Sayak Paul, Noah Lee, Kashif Rasul, James Thorne, Jongheon Jeong

Proceedings of the AAAI Conference on Artificial Intelligence

DPO와 같은 최신 선호도 정렬 방법은 학습 안정성을 위해 기준 모델(reference model)에 대한 발산(divergence) 정규화를 활용하지만, 이는 우리가 “기준 불일치(reference mismatch)”라고 부르는 근본적인 문제를 야기한다. 본 논문에서는 텍스트-이미지(T2I) 확산 모델을 정렬하는 과정에서 기준 불일치가 초래하는 부정적 영향을 조사하고, 예컨대 새로운 예술 양식을 학습하거나 특정 대상에 대해 개인화하는 경우처럼 동일한 양의 데이터가 주어질 때 기준 불일치가 클수록 효과적인 적응이 저해됨을 보여준다. 우리는 이러한 현상을 텍스트-이미지(T2I) 확산 모델 전반에서 확인하고, 이 제약에서 벗어나는 기준 비의존적(reference-agnostic) 접근법인 여백 인지 선호도 최적화(margin-aware preference optimization, MaPO)를 제안한다. MaPO는 기준에 고정하지 않고 Bradley-Terry 모델 하에서 선호되는 출력과 비선호되는 출력 간의 가능도(likelihood) 여백을 직접 최적화함으로써, 다양한 T2I 과제를 통합된 쌍별 선호도 최적화로 전환한다. 우리는 MaPO의 다재다능함을 다섯 가지의 도전적인 영역에서 검증한다: (1) 안전한 생성, (2) 스타일 적응, (3) 문화적 표현, (4) 개인화, (5) 일반적 선호도 정렬. 실험 결과는 기준 불일치의 심각도가 커질수록 MaPO의 이점이 극적으로 증가하며, DPO와 DreamBooth 같은 특화 방법 모두를 능가함과 동시에 학습 시간을 15% 단축함을 보여준다. 따라서 MaPO는 범용 T2I 적응 과제를 위한 다재다능하면서도 메모리 효율적인 방법으로 자리매김한다.

https://doi.org/10.1609/aaai.v40i6.42476

Pairwise comparison

Preference

Margin (machine learning)

Regularization (linguistics)

Adaptation (eye)

Divergence (linguistics)

Preprint

인용수 0

2025

Learning from the Undesirable: Robust Adaptation of Language Models without Forgetting

Nam, Yunhun, Jaehyung Kim, Jongheon Jeong

ArXiv.org

언어 모델(LM)은 종종 하위 작업을 위한 능력을 특화하기 위해 지도 미세조정(SFT)을 통해 적응된다. 그러나 미세조정 데이터가 제한된 전형적인 상황(예: 사전학습에 비해)에서는 SFT가 LM을 과적합시키고, 그 결과 대상 작업 내에서 나타나는 성가신(spurious) 패턴에 의존하게 하거나, 좁은 특수화의 부작용으로 다른 전반적으로 유용한 능력을 저해할 수 있다. 본 논문에서는 제한된 데이터로 LM을 미세조정할 때 과적합 문제를 완화하기 위한 SFT용의 간단하면서도 효과적인 정규화 기법인 학습-으로부터-바람직하지-않은-것(Learning-from-the-Undesirable, LfU)을 제안한다. 구체적으로, 우리는 미세조정 과정이 “바람직하지 않은(undesirable)” 모델 업데이트에 대해 견고한 해결책을 선호하도록 미세조정 과정을 정규화하는 것을 목표로 하며, 예를 들어 모델을 바람직하지 않은 행동으로 이끄는 그래디언트 상승(gradient ascent) 단계 등을 들 수 있다. 이를 위해 우리는 바람직하지 않은 업데이트 이후의 모델 내부 표현을 직접적으로 정렬하는 새로운 형태의 일관성 정규화(consistency regularization)를 제안한다. 바람직하지 않은 업데이트를 통한 표현 수준의 데이터 증강(representation-level data augmentation)을 활용함으로써, LfU는 제한된 데이터 하에서의 일반화를 효과적으로 촉진한다. 다양한 LM 하위 작업에 대한 실험 결과, LfU는 사전학습 지식을 보존하면서도 적응성을 향상시키는 효과적인 사전(prior)으로 작용함을 보여준다. 예를 들어, 동일한 데이터셋에서 바닐라 SFT에 비해 LfU로 학습한 우리의 LM은 수학 과제에서 평균 16.8%의 향상을 달성했으며, 해당 바닐라 SFT는 심지어 그 과제들에서 성능 저하를 초래하였다. 또한 LfU는 프롬프트 변형(prompt variations)에 대한 강건성도 향상되었는데, 예컨대 SFT에 비해 출력 성능에서 표준편차(standard deviation)를 92.1% 낮추어, 그 유연한 효과를 강조한다.

http://arxiv.org/abs/2511.13052

Overfitting

Spurious relationship

Adaptability

Robustness (evolution)

Regularization (linguistics)

Forgetting

Language model

Decorrelation

Domain adaptation

Preprint

인용수 0

2025

BlurGuard: A Simple Approach for Robustifying Image Protection Against AI-Powered Editing

Jinsu Kim, Nam, Yunhun, Minseon Kim, Sangpil Kim, Jongheon Jeong

ArXiv.org

최근 텍스트-이미지(text-to-image) 모델의 발전은 강력한 이미지 편집 기법을 도구로서 더 널리 노출시켜, 악의적 사용 가능성에 대한 우려를 높이고 있다. 이러한 위협에 대응하기 위한 새롭게 부상하는 연구 흐름은, 공개되기 전에 이미지에 ‘보호(protective)’ 적대적 잡음을 삽입하여, 이후 텍스트-이미지 모델을 사용한 편집 시도가 이를 방해받도록 하는 데 초점을 맞춘다. 그러나 후속 연구들은 이러한 적대적 잡음이 종종 ‘역변환(reversed)’이 비교적 쉽게 가능함을 보여주었는데, 예를 들어 JPEG 압축과 같은 단순한 기법으로도 가능하다는 점이 밝혀져 이 접근법의 실용성에 의문이 제기된다. 본 논문에서는 이미지 보호를 위한 적대적 잡음이 기존 연구의 주요 초점이었던 단순한 무지각성(자각 불가능함)에 더해, 되돌릴 수 없어야(irreversible), 즉 원본 이미지가 숨겨져 있는 경우 잡음으로서 탐지가 어렵도록 해야 한다고 주장한다. 우리는 잡음 역변환 기법에 대한 이미지 보호 방법의 견고성을 향상시키기 위한 놀랍도록 단순한 방법을 제안한다. 구체적으로, 전체 주파수 스펙트럼을 조정하기 위해 잡음에 대해 영역별 적응적(adaptive) 가우시안 블러(Gaussian blur)를 적용한다. 광범위한 실험을 통해, 본 방법이 다양한 이미지 편집 시나리오에서 다수의 역변환 기법에 대해 기존 방법들의 샘플별 최악-경우(per-sample worst-case) 보호 성능을 일관되게 향상시키는 동시에, 지각(perceptual) 지표 관점에서 잡음으로 인한 품질 저하를 감소시킴을 보여준다. 코드는 https://github.com/jsu-kim/BlurGuard 에서 제공된다.

http://arxiv.org/abs/2511.00143

Image editing

Noise (video)

Robustness (evolution)

Image quality

Gaussian noise

Image (mathematics)

Image restoration

Adversarial system

Focus (optics)