Multimodal Video Representation, Summarization, and Generation
연구 내용
비디오를 Gaussian splatting 기반으로 효율적으로 표현·압축하고, 시각·텍스트·오디오를 프레임 단위로 적응 가중 융합해 핵심 구간을 요약하는 연구
비디오 표현에서 학습된 인코더-디코더 비용을 줄이기 위해 Gaussian splatting을 기반으로 시공간 정보를 다룹니다. 프레임마다 변형되는 2D Gaussian을 적용하고, 컬러·좌표·형상을 시간 단계 입력으로 예측하여 초기화된 Gaussian의 변화를 적응적으로 반영합니다. 시계열의 중복을 시간 그라디언트를 활용해 비용 부담 없이 포착하는 구성을 통해 표현 효율을 높입니다. 요약 연구에서는 프레임 수준에서 시각·텍스트·오디오의 모달리티 중요도를 동적으로 가중 융합하는 구조를 제안하고, 멀티모달 벤치마크 부재 문제를 MoSu 형태의 대규모 평가 체계로 보완합니다. 이를 통해 비디오 이해와 요약의 멀티모달 연계 성능을 지향합니다.
관련 연구 성과
관련 논문
3편
관련 특허
0건
관련 프로젝트
6건
연구 흐름
2024년부터 OTT 사용자 및 콘텐츠 데이터 분석 과제를 통해 비디오 요약과 장면 인식, 검색을 결합하는 방향의 요구를 정리했습니다. 2025년에는 비디오 표현을 NeRV 계열과 비교하며, 인코딩·디코딩 병목을 해결하기 위해 Gaussian splatting 기반의 효율적 표현 및 압축 방법을 제안했습니다. 2026년에는 긴 비디오에서 핵심 정보를 추출하기 위해 시각·텍스트·오디오를 정적 융합이 아닌 프레임 단위 적응 가중으로 결합하는 TripleSumm을 구성하고, 멀티모달 평가를 위한 MoSu 벤치마크를 함께 도입했습니다. 동시에 2022년부터 진행된 지식기반 심층논리 신경망 기반 비디오 해석·생성 연구와 2023년부터 수행된 초거대 AI 모델 플랫폼 최적화 과제를 통해 멀티모달 학습과 추론 파이프라인을 고도화했습니다.
활용 가능성
활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.
관련 논문
구분
제목
GaussianVideo: Efficient Video Representation and Compression by Gaussian Splatting
TripleSumm: Adaptive Triple-Modality Fusion for Video Summarization
TripleSumm: Adaptive Triple-Modality Fusion for Video Summarization
관련 프로젝트
구분
제목
지식기반 심층논리 신경망을 활용한 통합적 비디오 해석과 생성 연구
지식기반 심층논리 신경망을 활용한 통합적 비디오 해석과 생성 연구
지식기반 심층논리 신경망을 활용한 통합적 비디오 해석과 생성 연구
초거대 AI 모델 및 플랫폼 최적화 센터
초거대 AI 모델 및 플랫폼 최적화 센터
초거대 AI 모델 및 플랫폼 최적화 센터