시각-언어 지식과 디퓨전 기반 텍스트 조건 생성·편집 연구

Vision-language grounding and diffusion-based text-conditioned generation and editing

연구 내용

대규모 비전-언어 모델의 내부 어텐션을 이용해 학습 없이 시각 그라운딩을 수행하고, 디퓨전 기반 이미지 편집·합성에서 텍스트-이미지 임베딩 정렬을 최적화하여 공간 일관성과 편집 무결성을 확보하는 연구

텍스트 프롬프트가 요구하는 객체 위치를 안정적으로 추출하기 위해 비전-언어 모델의 attention head 특성을 분석합니다. 다수의 모듈을 학습하는 대신, 고정된 LVLM 내부의 localization heads가 생성 과정에서 보이는 텍스트-시각 대응을 이용해 학습 없이 박스·마스크 후보를 도출하는 프레임워크를 구성합니다. 이어 디퓨전 기반 편집·합성에서는 denoising 과정 중 텍스트 임베딩이 고정되는 문제를 고려하여, 텍스트 임베딩을 편집 단계와 함께 최적화하고 원 프롬프트 무결성을 정규화합니다. 또한 공간 배치가 텍스트와 어긋나는 mislocated objects 문제를 해결하기 위해 optimal transport 관점의 attention map 재배치로 공간 일관성을 강화하는 연구를 수행합니다.

관련 프로젝트

1건

연구 흐름

2025년부터 LVLM 기반 그라운딩에서 학습 비용을 낮추기 위해, 내부 attention head 중 위치 정보를 일관되게 담당하는 localization heads를 식별하고 학습 없이 텍스트-이미지 attention map을 사용하는 프레임워크로 확장했습니다. 같은 축에서 디퓨전 기반 point-based 편집에서는 텍스트 임베딩과 이미지 임베딩의 불일치가 편집 무결성과 조작 의도 달성에 미치는 영향을 분석하고 Dragtext를 제안했습니다. 이후 텍스트 조건 생성 합성에서는 공간 정합성 결여가 핵심 오류로 남는 점을 확인하고, STORM을 통해 optimal transport 기반의 spatial transport 최적화로 early denoising 단계에서 공간 정렬을 유도하는 방향으로 발전시켰습니다. 이러한 흐름은 의료 멀티모달 생성모델 개발에서 대화형 입력과 이미지 기반 단서의 정합성을 강화하는 응용으로 연결됩니다.

활용 가능성

활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.

학습 없는 비전 그라운딩
텍스트 조건 이미지 편집
편집 무결성 정규화 모듈
공간 일관성 강화 합성
임베딩 정렬 기반 생성 제어
프롬프트 기반 객체 위치 추적
의료 멀티모달 대화형 생성
이미지-기록 정합성 모델링
다중 단서 기반 시각 추론
사용자 요구 반영형 생성 파이프라인