TripleSumm: Adaptive Triple-Modality Fusion for Video Summarization | 이준석 교수 연구실 | 서울대학교 데이터사이언스학과

|이준석 교수 연구실

홈

연구 영역

기본 정보

논문·특허

과제

구성원

Preprint|

인용수 0

·2026

TripleSumm: Adaptive Triple-Modality Fusion for Video Summarization

Sumin Kim, Hyemin Jeong, Kang Mingu, Yejin Kim, Yoori Oh, Joonseok Lee

arXiv (Cornell University)

초록

비디오 콘텐츠의 기하급수적 증가는 장시간 비디오로부터 핵심 정보를 효율적으로 추출하기 위한 효과적인 비디오 요약을 필요로 한다. 그러나 현재의 접근법은 주로 정적인 또는 양식(modality)에 비의존적인 융합 전략을 사용하기 때문에 복잡한 비디오를 충분히 이해하는 데 어려움을 겪는다. 이러한 방법들은 비디오 데이터에 내재된 양식의 중요도(modality saliency)가 프레임에 따라 역동적으로 변화한다는 점을 반영하지 못한다. 이러한 한계를 극복하기 위해, 우리는 프레임 수준에서 시각, 텍스트, 오디오 양식의 기여도를 적응적으로 가중하고 융합하는 새로운 아키텍처인 TripleSumm을 제안한다. 또한 멀티모달 비디오 요약에 관한 연구에서 중요한 병목은 포괄적인 벤치마크의 부재였다. 이 병목을 해결하기 위해, 우리는 세 가지 양식을 모두 제공하는 최초의 대규모 벤치마크인 MoSu (Most Replayed Multimodal Video Summarization)를 도입한다. 광범위한 실험 결과, TripleSumm은 네 개의 벤치마크( MoSu 포함 )에서 기존 방법들보다 유의미한 격차로 더 우수한 성능을 달성하며, 최신(state-of-the-art) 성능을 보인다. 우리의 코드와 데이터셋은 https://github.com/smkim37/TripleSumm 에서 제공된다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

Automatic summarizationBenchmark (surveying)Key (lock)Margin (machine learning)Frame (networking)BottleneckModality (human–computer interaction)Key frame

타입

Preprint

IF / 인용수

- / 0

원문

https://doi.org/10.48550/arxiv.2603.01169

게재 연도

2026