주요 논문
5
*2026년 기준 최근 6년 이내 논문에 한해 Impact Factor가 표기됩니다.
1
article
|
·
인용수 0
·
2026Compositional Image Synthesis with Inference-Time Scaling
Minsuk Ji, Sanghyeok Lee, Namhyuk Ahn
인상적인 사실성을 지니고 있음에도 불구하고, 최신 텍스트-이미지 생성 모델은 구문성(compositionality)을 여전히 어려워하며, 종종 정확한 객체 개수, 속성, 그리고 공간 관계를 제대로 표현하지 못한다. 이러한 문제를 해결하기 위해, 우리는 훈련 없이(training-free) 객체 중심의 접근과 자기-정제(self-refinement)를 결합하여 레이아웃 충실도를 향상시키면서도 미적 품질을 보존하는 프레임워크를 제안한다. 구체적으로, 우리는 대규모 언어 모델(LLM)을 활용하여 입력 프롬프트로부터 명시적 레이아웃을 합성하고, 이를 이미지 생성 과정에 주입한다. 여기서 객체 중심 비전-언어 모델(VLM) 판별기가 여러 후보를 재순위화하여, 가장 프롬프트에 부합하는 결과를 반복적으로 선택한다. 명시적 레이아웃 근거화(explicit layout-grounding)와 자기-정제 기반 추론 시점 스케일링을 통합함으로써, 우리의 프레임워크는 최근의 텍스트-이미지 생성 모델들에 비해 프롬프트에 대한 장면 정합성을 더 강하게 달성한다. 코드는 https://minsuk-ji.github.io/ReFocus/ 에서 제공된다.
https://doi.org/10.1109/icassp55912.2026.11464716
Image (mathematics)
Scaling
Image processing
Pattern recognition (psychology)
Image synthesis
Noise (video)
2
article
|
·
인용수 0
·
2026Imperceptible Protection against Style Imitation from Diffusion Models
Namhyuk Ahn, Wonhyuk Ahn, KiYoon Yoo, Daesik Kim, Seung-Hun Nam
IF 9.7 (2026)
IEEE Transactions on Multimedia
최근 확산 모델의 발전은 이미지 생성의 충실도를 크게 향상시켰으나, 저작권 침해에 대한 우려도 함께 제기되었다. 선행 방법들은 스타일 모방을 방지하기 위해 적대적 교란을 도입해 왔지만, 대부분은 작품의 시각적 품질을 저하시킨다. 이러한 점의 중요성을 인식하여, 우리는 보호 기능을 보존하면서도 시각적으로 개선된 보호 방법을 소개한다. 이를 위해 우리는 인간의 시각에 민감한 영역을 강조하는 지각 지도(perceptual map)를 설계하고, 인스턴스 인지 정교화(instance-aware refinement)에 의해 그 보호 강도를 그에 맞게 정제한다. 또한 작품을 보호하기가 얼마나 어려운지를 예측하여 그에 따라 보호 강도를 동적으로 조정하는 난이도 인지 보호(difficulty-aware protection)도 제안한다. 마지막으로 지각적 제약(perceptual constraints) 뱅크를 통합하여 무지각성의 향상을 추가로 도모한다. 결과는 본 방법이 보호 효능을 손상시키지 않으면서 보호된 이미지의 품질을 실질적으로 향상시킴을 보여준다.
https://doi.org/10.1109/tmm.2026.3660109
Fidelity
Perception
Human visual system model
Quality (philosophy)
Imitation
Image (mathematics)
Adversarial system
Style (visual arts)
3
article
|
·
인용수 1
·
2025DiffBlender: Composable and versatile multimodal text-to-image diffusion models
Sungnyun Kim, Junsoo Lee, Kibeom Hong, Daesik Kim, Namhyuk Ahn
IF 7.5 (2025)
Expert Systems with Applications
https://doi.org/10.1016/j.eswa.2025.129345
Computer science
Image (mathematics)
Diffusion
Artificial intelligence
Computer vision
4
article
|
·
인용수 13
·
2024Data Augmentation for Low-Level Vision: CutBlur and Mixture-of-Augmentation
Namhyuk Ahn, Jaejun Yoo, Kyung-Ah Sohn
IF 9.3 (2024)
International Journal of Computer Vision
https://doi.org/10.1007/s11263-023-01970-z
Computer science
Pixel
Artificial intelligence
Intuition
Code (set theory)
Process (computing)
Distortion (music)
Image (mathematics)
Image restoration
Computer vision
5
article
|
인용수 29
·
2022Efficient deep neural network for photo-realistic image super-resolution
Namhyuk Ahn, Byungkon Kang, Kyung-Ah Sohn
IF 8 (2022)
Pattern Recognition
최근 딥러닝 기반 모델의 발전은 사진과 같은(또는 지각적) 단일 이미지 초해상도를 유의미하게 향상시켰다. 그러나 강력한 성능에도 불구하고, 많은 방법들은 높은 계산 요구량으로 인해 실제 응용에 적용하기가 어렵다. 이러한 요구 하에서 딥 모델의 활용을 용이하게 하기 위해, 우리는 성능을 유지하면서 네트워크의 효율성을 유지하는 데 초점을 둔다. 구체적으로, 제한된 자원 내에서 다층 수준의 특징 융합을 통해 성능을 향상시키기 위해 잔차 네트워크(residual network) 상에서 연쇄(cascading) 메커니즘을 구현하는 아키텍처를 설계한다. 또한 제안된 모델은 극단적 효율성을 달성하기 위해 그룹 합성곱(group convolution)과 재귀적(recursive) 기법을 채택한다. 더 나아가, 적대적 학습(adversarial learning) 패러다임과 멀티스케일 판별기(multi-scale discriminator) 접근을 사용하여 출력의 지각적 품질을 추가로 향상시킨다. 본 방법의 성능은 다양한 데이터셋을 사용한 광범위한 내부 실험과 벤치마크를 통해 조사하였다. 그 결과, 본 연구의 모델은 전통적인 픽셀 기반 과제와 지각 기반 과제 모두에서 유사한 복잡도를 갖는 최근 방법들보다 더 우수한 성능을 보였다.
https://doi.org/10.1016/j.patcog.2022.108649
Computer science
Discriminator
Artificial intelligence
Deep learning
Convolution (computer science)
Residual
Feature (linguistics)
Focus (optics)
Convolutional neural network
Machine learning