Text-to-Image Generation with Style and Composition Control
연구 내용
다단계 텍스트 임베딩과 컨텍스트 프롬프트를 최적화해 스타일 참조와 구성 충실도를 동시에 제어하는 생성 프레임워크를 구축하는 연구
대규모 텍스트-이미지 모델의 성능을 기반으로, 텍스트 프롬프트만으로는 표현 한계가 나타나는 스타일·화풍 특성을 제어하기 위한 학습 및 추론 전략을 연구합니다. 컨텍스트 기반 임베딩 최적화와 멀티스테이지 프롬프트 설계로 스타일 전이와 합성 품질을 동시에 확보하며, 텍스처와 컬러 디코더 분리로 편집 가능성을 높입니다. 또한 객체 중심 레이아웃 생성과 VLM 재랭킹을 결합해 객체 수와 공간 관계의 충실도를 개선하는 방향으로 확장합니다.
관련 연구 성과
관련 논문
4편
관련 특허
0건
관련 프로젝트
2건
연구 흐름
초기에는 텍스트 프롬프트의 제약을 완화하기 위해 컨텍스트 인식 임베딩과 멀티스테이지 설계를 도입하여 예술적 이미지 합성 품질을 끌어올리는 연구를 수행했습니다. 이후 스타일 참조를 더 유연하게 반영하기 위해 생성 결과를 구성 요소로 분해하고(텍스처·컬러), 추론 시 제어 가능 특성을 사용자 입력과 결합하는 방식으로 편집성을 강화했습니다. 최근에는 조합성 문제를 해결하기 위해 명시적 레이아웃을 생성하고 객체 중심 비전-언어 판별로 후보를 재선택하는 학습-추론 결합 프레임워크로 확장하고 있습니다.
활용 가능성
활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.
관련 논문
구분
제목
DreamStyler: Paint by Style Inversion with Text-to-Image Diffusion Models
DiffBlender: Composable and versatile multimodal text-to-image diffusion models
Interactive Cartoonization with Controllable Perceptual Factors
Compositional Image Synthesis with Inference-Time Scaling
관련 프로젝트
구분
제목
산업융합형 멀티모달 생성 인공지능 인재양성
산업융합형 멀티모달 생성 인공지능 인재양성