김진규 교수 연구실
기본 정보
연구 분야
프로젝트
논문
구성원
읽는 시간 · 1분 21초

오디오·텍스트 기반 멀티모달 영상 조작과 윤리적 생성 제어 연구

Multimodal audio/text-guided image editing and ethical generation control

연구 내용

오디오 및 텍스트 입력을 영상의 국소 영역에 정렬해 자연스러운 스타일 변환과 생성 결과의 도덕성 정합성을 확보하는 멀티모달 영상 조작 연구

본 분야는 오디오나 텍스트 같은 비시각 단서를 영상의 의미 영역에 대응시키는 정렬과 생성 제어를 핵심으로 합니다. 오디오-비전 정렬 기반 국소화 맵을 구성하고 이를 암시적 신경표현과 결합해 목표 영역의 픽셀을 입력과 의미적으로 일치시키는 방식으로 국소 스타일화를 수행합니다. 또한 영상 생성 과정에서 윤리적으로 부적절한 시각 단서를 국소화하고 대체 단서로 조작하여 텍스트-이미지 생성 결과의 도덕성 정합성을 개선합니다. 도메인 일반화를 위해 이미지-텍스트 그래프 매칭과 클러스터링 기반 학습도 함께 다룹니다.

관련 연구 성과

관련 논문

4

관련 특허

0

관련 프로젝트

5

연구 흐름

초기에는 오디오 또는 사운드 정보를 영상의 특정 장면이나 객체와 연결하기 위한 멀티모달 정렬 구조를 구축하고, 입력에 대응하는 국소 영역을 안정적으로 추정하는 데 집중했습니다. 이후에는 암시적 신경표현을 활용해 국소화 맵을 구동 신호로 삼아 의미 일관성을 유지한 스타일 조작으로 확장했습니다. 동시에 텍스트-이미지 생성에서 부적절한 시각 단서를 평가·국소화하고 조작하는 윤리 제어 모듈을 제안하여 생성 결과의 속성 정합성을 강화했습니다. 최근에는 이미지-텍스트 그래프 매칭과 도메인 일반화 기법을 통해 학습 분포 변화에도 견고한 조작 및 제어 방향을 병행합니다.

활용 가능성

활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.

  • 오디오 기반 장면 중심 이미지 편집
  • 국소 스타일 변환 파이프라인
  • 사운드-비전 정렬 기반 콘텐츠 생성
  • 텍스트-이미지 윤리성 검증과 수정
  • 속성 단서 국소화 기반 리터칭
  • 도메인 변동 강건한 멀티모달 학습
  • 대화형 생성형 편집 도구
  • 콘텐츠 안전성 자동화 모듈
  • 프롬프트 품질 개선용 피드백 구조
  • 멀티모달 인터랙션용 시각 사용자 경험

관련 논문

구분

제목

1

Audio-guided implicit neural representation for local image stylization

2

Robust sound-guided image manipulation

3

Localization and Manipulation of Immoral Visual Cues for Safe Text-to-Image Generation

4

Clustering-based Image-Text Graph Matching for Domain Generalization

관련 프로젝트

구분

제목

1

LLM 기반 응용서비스 기술 개발을 통한 생성 AI 인재양성

2

개성 형성이 가능한 에이전트 플랫폼 기술 개발

3

개성 형성이 가능한 에이전트 플랫폼 기술 개발

4

개성 형성이 가능한 에이전트 플랫폼 기술 개발

5

융합소프트웨어연구소

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)

© 2026 RnDcircle. All Rights Reserved.