오디오·이벤트 기반 멀티모달 영상 복원 및 생성

Multimodal Video Restoration and Generation from Audio and Event Signals

연구 내용

오디오 정보를 이용한 선택적 영상 편집·생성을 수행하고, 주파수/이벤트 신호로 영상 복원 품질을 높이는 연구

멀티모달 입력을 활용해 영상의 의미 기반 편집과 복원 품질을 동시에 다룹니다. 오디오 기반 로컬 스타일화에서는 CLIP embedding 공간을 이용해 음향-영상 맥락의 위치를 추정하고, 임플리싯 뉴럴 표현을 통해 해당 영역의 픽셀을 오디오 조건에 맞게 조정합니다. 또한 오디오-소스 분리 기반의 오디오-투-비디오 생성으로 장면 복잡도를 반영하는 생성 프레임을 설계합니다. 비디오 품질 개선에서는 프레임 단위 정합을 결합한 주파수 기반 모아레 제거를 수행하고, 이벤트 융합 포토메트릭 스테레오 네트워크로 이벤트 신호에서 기하 정보를 복원합니다.

관련 프로젝트

1건

연구 흐름

초기에는 이벤트와 포토메트릭 스테레오 같은 비전 복원 문제에서 특징 융합을 다루며 3D 추정 기반 신호 처리 역량을 구축했습니다. 이후 오디오가 장면의 특정 객체와 연결된다는 전제를 기반으로 오디오-영상 정렬과 로컬 편집을 수행하는 구조로 확장했습니다. 단일 오디오 입력에서 로컬 스타일을 구현하고, 생성 단계에서는 오디오 소스 분리를 통해 장면 복잡도를 제어하는 방향으로 심화했습니다. 동시에 주파수 도메인과 프레임 정합을 결합해 모아레 제거 등 영상 복원 성능을 개선하는 연구를 병행했습니다.

활용 가능성

활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.

오디오 기반 선택적 영상 편집
오디오-비전 로컬 스타일 생성
오디오-비디오 동기 콘텐츠 제작
멀티모달 크리에이티브 생성 파이프라인
모아레 제거 및 영상 품질 개선
이벤트 카메라 기반 3D 추정
비전 감시용 기하 복원
로컬 영역 조작을 통한 편집 제어
음원 분리 기반 멀티미디어 분석
텍스처·감성 연출 자동화