Compositional Image Synthesis with Inference-Time Scaling | 안남혁 교수 연구실 | 인하대학교 전기전자공학부

안남혁 교수 연구실

홈

기본 정보

연구 분야

프로젝트

논문

구성원

article|

인용수 0

·2026

Compositional Image Synthesis with Inference-Time Scaling

Minsuk Ji, Sanghyeok Lee, Namhyuk Ahn

초록

인상적인 사실성을 지니고 있음에도 불구하고, 최신 텍스트-이미지 생성 모델은 구문성(compositionality)을 여전히 어려워하며, 종종 정확한 객체 개수, 속성, 그리고 공간 관계를 제대로 표현하지 못한다. 이러한 문제를 해결하기 위해, 우리는 훈련 없이(training-free) 객체 중심의 접근과 자기-정제(self-refinement)를 결합하여 레이아웃 충실도를 향상시키면서도 미적 품질을 보존하는 프레임워크를 제안한다. 구체적으로, 우리는 대규모 언어 모델(LLM)을 활용하여 입력 프롬프트로부터 명시적 레이아웃을 합성하고, 이를 이미지 생성 과정에 주입한다. 여기서 객체 중심 비전-언어 모델(VLM) 판별기가 여러 후보를 재순위화하여, 가장 프롬프트에 부합하는 결과를 반복적으로 선택한다. 명시적 레이아웃 근거화(explicit layout-grounding)와 자기-정제 기반 추론 시점 스케일링을 통합함으로써, 우리의 프레임워크는 최근의 텍스트-이미지 생성 모델들에 비해 프롬프트에 대한 장면 정합성을 더 강하게 달성한다. 코드는 https://minsuk-ji.github.io/ReFocus/ 에서 제공된다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

Image (mathematics)ScalingImage processingPattern recognition (psychology)Image synthesisNoise (video)

타입

article

IF / 인용수

- / 0

원문

https://doi.org/10.1109/icassp55912.2026.11464716

게재 연도

2026

프로젝트 공고 서비스 문의 자주 묻는 질문 이용약관 개인정보처리방침

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)