멀티모달 비디오 표현·요약·생성

Multimodal Video Representation, Summarization, and Generation

연구 내용

비디오를 Gaussian splatting 기반으로 효율적으로 표현·압축하고, 시각·텍스트·오디오를 프레임 단위로 적응 가중 융합해 핵심 구간을 요약하는 연구

비디오 표현에서 학습된 인코더-디코더 비용을 줄이기 위해 Gaussian splatting을 기반으로 시공간 정보를 다룹니다. 프레임마다 변형되는 2D Gaussian을 적용하고, 컬러·좌표·형상을 시간 단계 입력으로 예측하여 초기화된 Gaussian의 변화를 적응적으로 반영합니다. 시계열의 중복을 시간 그라디언트를 활용해 비용 부담 없이 포착하는 구성을 통해 표현 효율을 높입니다. 요약 연구에서는 프레임 수준에서 시각·텍스트·오디오의 모달리티 중요도를 동적으로 가중 융합하는 구조를 제안하고, 멀티모달 벤치마크 부재 문제를 MoSu 형태의 대규모 평가 체계로 보완합니다. 이를 통해 비디오 이해와 요약의 멀티모달 연계 성능을 지향합니다.

관련 프로젝트

6건

연구 흐름

2024년부터 OTT 사용자 및 콘텐츠 데이터 분석 과제를 통해 비디오 요약과 장면 인식, 검색을 결합하는 방향의 요구를 정리했습니다. 2025년에는 비디오 표현을 NeRV 계열과 비교하며, 인코딩·디코딩 병목을 해결하기 위해 Gaussian splatting 기반의 효율적 표현 및 압축 방법을 제안했습니다. 2026년에는 긴 비디오에서 핵심 정보를 추출하기 위해 시각·텍스트·오디오를 정적 융합이 아닌 프레임 단위 적응 가중으로 결합하는 TripleSumm을 구성하고, 멀티모달 평가를 위한 MoSu 벤치마크를 함께 도입했습니다. 동시에 2022년부터 진행된 지식기반 심층논리 신경망 기반 비디오 해석·생성 연구와 2023년부터 수행된 초거대 AI 모델 플랫폼 최적화 과제를 통해 멀티모달 학습과 추론 파이프라인을 고도화했습니다.

활용 가능성

활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.

스트리밍용 비디오 압축 알고리즘
멀티모달 요약 기반 콘텐츠 브라우징
핵심 장면 추출 및 검색
시간 중복 최소화 표현 학습
모달리티 중요도 추정 모듈
긴 비디오 요약 자동 생성
비디오 이해용 공통 표현 생성
콘텐츠 분석 지표 산출
멀티모달 데이터 평가 체계
학습·추론 최적화 파이프라인 구축