RnDCircle Logo
안남혁 연구실
인하대학교 전기전자공학부 안남혁 교수
Diffusion Models
Text-to-Image Generation
Image Super-Resolution
안남혁 교수 연구실
기본 정보
연구 분야
프로젝트
논문
구성원

안남혁 연구실

인하대학교 전기전자공학부 안남혁 교수

안남혁 연구실은 딥러닝 기반 컴퓨터 비전 분야에서 저수준 영상 복원과 생성형 비전 모델을 함께 연구합니다. 효율 중심 초해상 신경망을 설계하기 위해 잔차 기반 캐스케이딩, 특징 융합, group convolution과 같은 구조를 적용하고 지각 품질 강화를 위해 적대적 학습과 멀티스케일 판별을 활용합니다. 또한 텍스트-이미지 diffusion 모델에서 스타일 전이와 구성 제어를 수행하기 위해 컨텍스트 인식 프롬프트 최적화, 구성 요소 분리 디코더, 객체 중심 레이아웃 기반 재랭킹을 연구합니다. 더불어 생성물의 모방 및 스타일 침해 위험을 줄이기 위해 비가시적 섭동과 지각 기반 보호 정제를 결합하는 보호 기술을 개발합니다.

Diffusion ModelsText-to-Image GenerationImage Super-ResolutionControllable StyleImperceptible Protection
대표 연구 분야
연구 영역 전체보기
스타일·구성 제어형 텍스트-이미지 생성 연구 thumbnail
스타일·구성 제어형 텍스트-이미지 생성 연구
Text-to-Image Generation with Style and Composition Control
연구 분야 상세보기
연구 성과 추이
표시된 성과는 수집된 데이터 기준으로 산출되며, 일부 차이가 있을 수 있습니다.

5개년 연도별 논문 게재 수

25총합

5개년 연도별 피인용 수

387총합
주요 논문
5
논문 전체보기
1
article
|
·
인용수 0
·
2026
Compositional Image Synthesis with Inference-Time Scaling
Minsuk Ji, Sanghyeok Lee, Namhyuk Ahn
인상적인 사실성을 지니고 있음에도 불구하고, 최신 텍스트-이미지 생성 모델은 구문성(compositionality)을 여전히 어려워하며, 종종 정확한 객체 개수, 속성, 그리고 공간 관계를 제대로 표현하지 못한다. 이러한 문제를 해결하기 위해, 우리는 훈련 없이(training-free) 객체 중심의 접근과 자기-정제(self-refinement)를 결합하여 레이아웃 충실도를 향상시키면서도 미적 품질을 보존하는 프레임워크를 제안한다. 구체적으로, 우리는 대규모 언어 모델(LLM)을 활용하여 입력 프롬프트로부터 명시적 레이아웃을 합성하고, 이를 이미지 생성 과정에 주입한다. 여기서 객체 중심 비전-언어 모델(VLM) 판별기가 여러 후보를 재순위화하여, 가장 프롬프트에 부합하는 결과를 반복적으로 선택한다. 명시적 레이아웃 근거화(explicit layout-grounding)와 자기-정제 기반 추론 시점 스케일링을 통합함으로써, 우리의 프레임워크는 최근의 텍스트-이미지 생성 모델들에 비해 프롬프트에 대한 장면 정합성을 더 강하게 달성한다. 코드는 https://minsuk-ji.github.io/ReFocus/ 에서 제공된다.
https://doi.org/10.1109/icassp55912.2026.11464716
Image (mathematics)
Scaling
Image processing
Pattern recognition (psychology)
Image synthesis
Noise (video)
2
article
|
·
인용수 0
·
2026
Imperceptible Protection against Style Imitation from Diffusion Models
Namhyuk Ahn, Wonhyuk Ahn, KiYoon Yoo, Daesik Kim, Seung-Hun Nam
IF 9.7 (2026)
IEEE Transactions on Multimedia
최근 확산 모델의 발전은 이미지 생성의 충실도를 크게 향상시켰으나, 저작권 침해에 대한 우려도 함께 제기되었다. 선행 방법들은 스타일 모방을 방지하기 위해 적대적 교란을 도입해 왔지만, 대부분은 작품의 시각적 품질을 저하시킨다. 이러한 점의 중요성을 인식하여, 우리는 보호 기능을 보존하면서도 시각적으로 개선된 보호 방법을 소개한다. 이를 위해 우리는 인간의 시각에 민감한 영역을 강조하는 지각 지도(perceptual map)를 설계하고, 인스턴스 인지 정교화(instance-aware refinement)에 의해 그 보호 강도를 그에 맞게 정제한다. 또한 작품을 보호하기가 얼마나 어려운지를 예측하여 그에 따라 보호 강도를 동적으로 조정하는 난이도 인지 보호(difficulty-aware protection)도 제안한다. 마지막으로 지각적 제약(perceptual constraints) 뱅크를 통합하여 무지각성의 향상을 추가로 도모한다. 결과는 본 방법이 보호 효능을 손상시키지 않으면서 보호된 이미지의 품질을 실질적으로 향상시킴을 보여준다.
https://doi.org/10.1109/tmm.2026.3660109
Fidelity
Perception
Human visual system model
Quality (philosophy)
Imitation
Image (mathematics)
Adversarial system
Style (visual arts)
3
article
|
·
인용수 1
·
2025
DiffBlender: Composable and versatile multimodal text-to-image diffusion models
Sungnyun Kim, Junsoo Lee, Kibeom Hong, Daesik Kim, Namhyuk Ahn
IF 7.5 (2025)
Expert Systems with Applications
https://doi.org/10.1016/j.eswa.2025.129345
Computer science
Image (mathematics)
Diffusion
Artificial intelligence
Computer vision
최신 정부 과제
4
과제 전체보기
1
2024년 3월-2027년 12월
|2,800,000,000
산업융합형 멀티모달 생성 인공지능 인재양성
생성 인공지능 시장을 선도하는 멀티모달 생성형 AI 초격차 기술 공동연구 기반 산업융합형 석박사급 생성AI 고급 인재 양성
생성AI
인재양성
산업융합
멀티모달
대규모 언어모델
2
2024년 3월-2027년 12월
|1,883,340,000
산업융합형 멀티모달 생성 인공지능 인재양성
생성 인공지능 시장을 선도하는 멀티모달 생성형 AI 초격차 기술 공동연구 기반 산업융합형 석박사급 생성AI 고급 인재 양성
생성AI
인재양성
산업융합
멀티모달
대규모 언어모델
3
주관|
2021년 4월-2027년 2월
|5,450,000,000
첨단분야 혁신융합대학사업(빅데이터)
본 과제는 빅데이터 분야 다양성을 키우기 위해 여러 대학이 교육 자원과 전공 역량을 함께 나누는 혁신적 분산 공유 대학을 구축하는 연구임. 연구 목표는 수준별 교육과 우수 교원 POOL을 바탕으로 지역간 교육 인프라 불균형을 해소하고 포스트 코로나 시대의 새로운 대학교육 시스템 모델을 제안하는 데 있음. 핵심 연구내용은 대학별 특화분야 특장점 공유, 우수 교원들을 하나의 POOL로 구성해 세부 전공을 상호보완, 디지털 기술 기반 지적 자산 고른 공유, 자동화공정 및 자율주행차 센서 데이터 연계분석 모델링의 오류판정·추론 등으로 산업 데이터 가치 고도화임. 기대효과는 기업·연구소와의 빅데이터 인력 미스매치 극복, 신기술 트렌드 첨단인력 배출 및 설비·공정 데이터분석 기반 생산성·품질 예측·최적화로 산업경제 주도 가능함.
빅데이터

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)

© 2026 RnDcircle. All Rights Reserved.