Multimodal Video Restoration and Generation from Audio and Event Signals
연구 내용
오디오 정보를 이용한 선택적 영상 편집·생성을 수행하고, 주파수/이벤트 신호로 영상 복원 품질을 높이는 연구
멀티모달 입력을 활용해 영상의 의미 기반 편집과 복원 품질을 동시에 다룹니다. 오디오 기반 로컬 스타일화에서는 CLIP embedding 공간을 이용해 음향-영상 맥락의 위치를 추정하고, 임플리싯 뉴럴 표현을 통해 해당 영역의 픽셀을 오디오 조건에 맞게 조정합니다. 또한 오디오-소스 분리 기반의 오디오-투-비디오 생성으로 장면 복잡도를 반영하는 생성 프레임을 설계합니다. 비디오 품질 개선에서는 프레임 단위 정합을 결합한 주파수 기반 모아레 제거를 수행하고, 이벤트 융합 포토메트릭 스테레오 네트워크로 이벤트 신호에서 기하 정보를 복원합니다.
관련 연구 성과
관련 논문
5편
관련 특허
0건
관련 프로젝트
1건
연구 흐름
초기에는 이벤트와 포토메트릭 스테레오 같은 비전 복원 문제에서 특징 융합을 다루며 3D 추정 기반 신호 처리 역량을 구축했습니다. 이후 오디오가 장면의 특정 객체와 연결된다는 전제를 기반으로 오디오-영상 정렬과 로컬 편집을 수행하는 구조로 확장했습니다. 단일 오디오 입력에서 로컬 스타일을 구현하고, 생성 단계에서는 오디오 소스 분리를 통해 장면 복잡도를 제어하는 방향으로 심화했습니다. 동시에 주파수 도메인과 프레임 정합을 결합해 모아레 제거 등 영상 복원 성능을 개선하는 연구를 병행했습니다.
활용 가능성
활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.
관련 논문
구분
제목
Audio-guided implicit neural representation for local image stylization
Robust sound-guided image manipulation
Semantically complex audio to video generation with audio source separation
FPANet: Frequency-based video demoiréing using frame-level post alignment
Event fusion photometric stereo network
관련 프로젝트
구분
제목
디지털 옥외 광고 효과 측정이 가능한 인터랙티브 콘텐츠 및 통계 시스템 개발