Multimodal audio/text-guided image editing and ethical generation control
연구 내용
오디오 및 텍스트 입력을 영상의 국소 영역에 정렬해 자연스러운 스타일 변환과 생성 결과의 도덕성 정합성을 확보하는 멀티모달 영상 조작 연구
본 분야는 오디오나 텍스트 같은 비시각 단서를 영상의 의미 영역에 대응시키는 정렬과 생성 제어를 핵심으로 합니다. 오디오-비전 정렬 기반 국소화 맵을 구성하고 이를 암시적 신경표현과 결합해 목표 영역의 픽셀을 입력과 의미적으로 일치시키는 방식으로 국소 스타일화를 수행합니다. 또한 영상 생성 과정에서 윤리적으로 부적절한 시각 단서를 국소화하고 대체 단서로 조작하여 텍스트-이미지 생성 결과의 도덕성 정합성을 개선합니다. 도메인 일반화를 위해 이미지-텍스트 그래프 매칭과 클러스터링 기반 학습도 함께 다룹니다.
관련 연구 성과
관련 논문
4편
관련 특허
0건
관련 프로젝트
5건
연구 흐름
초기에는 오디오 또는 사운드 정보를 영상의 특정 장면이나 객체와 연결하기 위한 멀티모달 정렬 구조를 구축하고, 입력에 대응하는 국소 영역을 안정적으로 추정하는 데 집중했습니다. 이후에는 암시적 신경표현을 활용해 국소화 맵을 구동 신호로 삼아 의미 일관성을 유지한 스타일 조작으로 확장했습니다. 동시에 텍스트-이미지 생성에서 부적절한 시각 단서를 평가·국소화하고 조작하는 윤리 제어 모듈을 제안하여 생성 결과의 속성 정합성을 강화했습니다. 최근에는 이미지-텍스트 그래프 매칭과 도메인 일반화 기법을 통해 학습 분포 변화에도 견고한 조작 및 제어 방향을 병행합니다.
활용 가능성
활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.
관련 논문
구분
제목
Audio-guided implicit neural representation for local image stylization
Robust sound-guided image manipulation
Localization and Manipulation of Immoral Visual Cues for Safe Text-to-Image Generation
Clustering-based Image-Text Graph Matching for Domain Generalization
관련 프로젝트
구분
제목
LLM 기반 응용서비스 기술 개발을 통한 생성 AI 인재양성
개성 형성이 가능한 에이전트 플랫폼 기술 개발
개성 형성이 가능한 에이전트 플랫폼 기술 개발
개성 형성이 가능한 에이전트 플랫폼 기술 개발
융합소프트웨어연구소