주요 논문
5
*2026년 기준 최근 6년 이내 논문에 한해 Impact Factor가 표기됩니다.
1
preprint
|
인용수 0
·
2026Universal Image Immunization against Diffusion-based Image Editing via Semantic Injection
Chanhui Lee, Seunghyun Shin, Donggyu Choi, Hae‐Gon Jeon, Jeany Son
Open MIND
최근 확산(diffusion) 모델의 발전은 자연어 프롬프트에 의해 유도되는 강력한 이미지 편집 능력을 가능하게 하여 새로운 창의적 가능성을 열었다. 그러나 이러한 기술은 딥페이크와 저작권이 있는 시각 콘텐츠의 무단 사용과 같은 중대한 윤리적·법적 위험을 야기한다. 이러한 위험에 대응하기 위해, 이미지 면역화(image immunization)가 AI 기반 의미론적 조작에 대한 유망한 방어책으로 부상하였다. 그럼에도 불구하고 대부분의 기존 접근법은 이미지별 적대적 교란(adversarial perturbations)에 의존하며, 각 이미지에 대해 개별 최적화를 요구함으로써 확장성 및 실용성이 제한된다. 본 논문에서는 확산 기반 편집 파이프라인을 위해 특별히 설계된 단일의 범용(adversarial) 교란을 생성하는 최초의 범용 이미지 면역화 프레임워크를 제안한다. 표적 공격에서 사용되는 범용 적대적 교란(universal adversarial perturbation, UAP) 기법에 영감을 받아, 우리의 방법은 보호하고자 하는 이미지에 의미론적 목표(semantic target)를 내재시키는 UAP를 생성한다. 동시에 원래 콘텐츠를 억제함으로써 편집 과정에서 모델의 주의를 효과적으로 오도한다. 그 결과, 우리의 접근법은 UAP를 통해 이미지의 원래 의미론적 콘텐츠를 덮어써 악의적인 편집 시도를 효과적으로 차단한다. 또한 본 방법은 학습 데이터나 도메인 지식에 대한 접근을 요구하지 않는 데이터 프리(data-free) 설정에서도 효과적으로 동작하여, 실제 환경에서의 실용성과 광범위한 적용 가능성을 한층 더 높인다. 광범위한 실험 결과, 본 방법은 최초의 범용 면역화 접근으로서 UAP 설정에서 여러 기준 모델(baselines)보다 유의미하게 성능이 우수함을 보였다. 더 나아가 범용 교란의 고유한 어려움에도 불구하고, 본 방법은 보다 제한된 교란 예산에서 이미지별 방식과 동등한 수준의 성능을 달성하며, 서로 다른 확산 모델 간에서도 강한 블랙박스 전이성(black-box transferability)을 보여준다.
https://doi.org/10.48550/arxiv.2602.14679
Adversarial system
Image editing
Transferability
Limiting
Scalability
Image (mathematics)
Visualization
2
article
|
인용수 0
·
2026Universal Image Immunization against Diffusion-based Image Editing via Semantic Injection
Chanhui Lee, Seunghyun Shin, Donggyu Choi, Hae‐Gon Jeon, Jeany Son
arXiv (Cornell University)
최근 확산(diffusion) 모델의 발전은 자연어 프롬프트에 의해 유도되는 강력한 이미지 편집 기능을 가능하게 하여 새로운 창의적 가능성을 열었다. 그러나 이러한 기술은 딥페이크와 저작권이 있는 시각 콘텐츠의 무단 사용과 같은 중대한 윤리적·법적 위험을 함께 초래한다. 이러한 위험에 대응하기 위해 이미지 면역화(image immunization)는 AI 기반 의미론적 조작에 대한 유망한 방어책으로 부상하였다. 그럼에도 불구하고 대부분의 기존 접근법은 이미지별 맞춤 최적화를 필요로 하는 이미지 특화 적대적 교란(image-specific adversarial perturbations)에 의존하므로, 확장성과 실용성에 한계가 있다. 본 논문에서는 확산 기반 편집 파이프라인을 위해 특별히 설계된 단일의 보편적 적대적 교란( UAP )을 생성하는 최초의 범용 이미지 면역화 프레임워크를 제안한다. 표적 공격에서 사용되는 범용 적대적 교란(universal adversarial perturbation, UAP) 기법에서 영감을 받아, 본 방법은 보호 대상 이미지에 의미론적 표적(semantic target)을 내재시키는 UAP를 생성한다. 동시에 원본 콘텐츠를 억제하여 편집 과정에서 모델의 주의(attention)를 효과적으로 오도한다. 그 결과, 본 접근법은 UAP를 통해 이미지의 원본 의미론적 콘텐츠를 덮어씀으로써 악의적 편집 시도를 효과적으로 차단한다. 또한 본 방법은 학습 데이터나 도메인 지식에 대한 접근 없이도 요구하지 않는 데이터-프리(data-free) 설정에서도 효과적으로 작동하여, 실제 환경에서의 실용성과 광범위한 적용 가능성을 더욱 향상시킨다. 광범위한 실험 결과, 본 방법은 최초의 범용 면역화 접근으로서 UAP 설정에서 여러 기준 방법(baseline)보다 유의미하게 우수한 성능을 보인다. 더 나아가, 범용 교란의 내재적 어려움에도 불구하고, 본 방법은 보다 제한된 교란 예산 하에서 이미지 특화 방법과 동등한 수준의 성능을 달성하며, 서로 다른 확산 모델 간에서도 강한 블랙박스 전이성(transferability)을 보여준다.
http://arxiv.org/abs/2602.14679
Adversarial system
Image editing
Transferability
Limiting
Scalability
Image (mathematics)
Visualization
3
preprint
|
인용수 0
·
2025Data-free Universal Adversarial Perturbation with Pseudo-semantic Prior
Chanhui Lee, Yeonghwan Song, Jeany Son
ArXiv.org
데이터 비의존 보편적 적대적 교란(Data-free Universal Adversarial Perturbation, UAP)은 데이터 사전지식에 의존하지 않고 무작위 잡음만으로 생성된 단일 교란을 사용하여, 이미지에 무관하게 심층 신경망을 기만하는 공격이다. 그러나 기존의 데이터 비의존 UAP 방법들은 무작위 잡음에 의미(semantic) 내용이 부재하기 때문에 전이 가능성이 제한되는 문제가 자주 발생한다. 이러한 문제를 해결하기 위해, 우리는 학습 과정에서 UAP로부터 의사-의미적(pseudo-semantic) 사전지식을 재귀적으로 추출하여, 데이터 비의존 UAP 프레임워크 내의 의미 내용을 풍부하게 하는 새로운 데이터 비의존 보편 공격 방법을 제안한다. 우리의 접근은 영역 샘플링(region sampling)을 통해 UAP 안에 내재된 잠재 의미 정보를 효과적으로 활용하며, 의미 단서의 부재로 인해 전통적인 데이터 비의존 UAP 방법에서는 일반적으로 비효율적인 입력 변환(input transformations)에서도 성공을 가능하게 하고, 블랙박스 전이 가능성을 유의미하게 향상시킨다. 또한 무작위 샘플링과 변환으로 인해 발생할 수 있는 잠재적 불균형을 완화하기 위해, UAP의 영향을 상대적으로 덜 받는 어려운 예(hard examples)에 더 큰 비중을 두는 표본 재가중(sample reweighting) 기법을 도입한다. ImageNet에 대한 포괄적 실험 결과, 본 방법은 평균 기만률(average fooling rate)에서 상당한 격차로 최첨단 성능을 달성하였고, 기존 데이터 비의존 UAP 방법에 비해 다양한 CNN 아키텍처 전반에서 공격 전이 가능성을 현저히 개선했으며, 나아가 데이터 의존적 UAP 방법을 포함하여 그 성능을 능가한다. 코드는 다음에서 제공된다: https://github.com/ChnanChan/PSP-UAP.
http://arxiv.org/abs/2502.21048
Adversarial system
Transferability
Prior probability
Perturbation (astronomy)
Deep neural networks
Semantics (computer science)
Random noise
4
preprint
|
인용수 0
·
2024Pseudo-RIS: Distinctive Pseudo-supervision Generation for Referring Image Segmentation
Seonghoon Yu, Paul Hongsuck Seo, Jeany Son
arXiv (Cornell University)
우리는 지시 이미지 분할(Referring Image Segmentation, RIS)에서 참조 표현을 의사 감독(pseudo supervisions)으로 활용하여, 높은 품질의 분할 마스크를 자동으로 생성하는 새로운 프레임워크를 제안한다. 이러한 의사 감독은 수동 라벨링 비용 없이도 임의의 지도 기반 RIS 방법을 학습할 수 있게 해준다. 이를 위해 기존의 분할 및 이미지 캡션 생성 기초 모델을 통합하여, 이들의 폭넓은 일반화 능력을 활용한다. 그러나 이러한 모델을 단순히 통합하면, 대상 마스크를 뚜렷하게 지시하지 못하는 비분별적 표현이 생성될 수 있다. 이 문제를 해결하기 위해, 우리는 뚜렷한 캡션을 생성하는 이중 전략을 제안한다. 1) 캡션 생성 모델을 위한 새로운 디코딩 방법인 ‘distinctive caption sampling’을 통해, 대상에 초점을 맞춘 상세 어휘를 포함하는 복수의 표현 후보를 생성한다. 2) 후보를 추가로 검증하고 식별성이 낮은 후보를 걸러내기 위한 ‘distinctiveness-based text filtering’을 수행한다. 이 두 전략은 생성된 텍스트 감독이 다른 객체들로부터 대상을 구별할 수 있도록 하여, RIS 주석으로서 적절하도록 한다. 우리의 방법은 RIS 벤치마크 데이터셋에서 약지도 및 제로샷 SoTA 방법 모두를 유의하게 능가한다. 또한 보지 못한 도메인에서 완전 지도(supervised) 방법보다도 뛰어나, RIS 내 오픈월드(open-world) 과제에 대응할 수 있는 역량을 입증한다. 더 나아가, 우리의 방법을 인간 주석과 통합하면 추가적인 개선이 이루어져, 준지도 학습(semi-supervised learning) 응용 분야에서의 잠재력을 보여준다.
http://arxiv.org/abs/2407.07412
Segmentation
Computer vision
Artificial intelligence
Image (mathematics)
Computer science
Business
5
preprint
|
인용수 1
·
2024A Simple Baseline with Single-encoder for Referring Image Segmentation
Seonghoon Yu, Ilchae Jung, Han, Byeongju, Taeoh Kim, Yunho Kim, Dongyoon Wee, Jeany Son
arXiv (Cornell University)
참조 이미지 분할(Referring image segmentation, RIS)은 주어진 설명에 따라 객체를 분할하기 위해 시각 픽셀과 텍스트 단어 간의 촘촘한 비전-언어 상호작용을 필요로 한다. 그러나 RIS에서 흔히 채택되는 이중 인코더, 예컨대 Swin transformer와 BERT(단일 모달 인코더) 또는 CLIP(멀티모달 이중 인코더)는 사전학습 동안 촘촘한 멀티모달 상호작용이 결여되어, 픽셀 수준의 RIS 작업과의 간극을 초래한다. 이러한 간극을 메우기 위해 기존의 RIS 방법들은 종종 두 인코더를 상호작용시키는 멀티모달 융합 모듈에 의존하지만, 이 접근은 높은 계산 비용을 야기한다. 본 논문에서는 단일 인코더를 사용하는 새로운 RIS 방법을 제안한다. 즉 BEiT-3로, 모든 프레임워크 구성 요소에 걸친 공유 자기주의(self-attention)의 잠재력을 최대화한다. 이를 통해 입력부터 최종 예측까지 두 모달리티 간의 매끄러운 상호작용이 가능해지며, 세밀하게 정렬된 멀티모달 특징을 생성한다. 또한 경량이면서도 효과적인 디코더 모듈인 Shared FPN과 Shared Mask Decoder를 제안하며, 이는 본 모델의 높은 효율성에 기여한다. 단일 인코더를 사용하는 간단한 베이스라인은 최신 SoTA 방법들(이중 인코더 기반)과 비교하여 계산 효율성을 유지하면서 RIS 벤치마크 데이터셋에서 뛰어난 성능을 달성한다.
http://arxiv.org/abs/2408.15521
Baseline (sea)
Simple (philosophy)
Encoder
Computer science
Artificial intelligence
Segmentation
Computer vision
Image (mathematics)
Pattern recognition (psychology)
Political science