비디오 콘텐츠의 기하급수적 증가로 인해 긴 비디오에서 핵심 정보를 효율적으로 추출하기 위한 효과적인 비디오 요약이 필요하다. 그러나 현재의 접근법은 정적인 또는 양식(modality)에 비의존적인 융합 전략을 주로 사용하기 때문에 복잡한 비디오를 충분히 이해하는 데 어려움을 겪는다. 이러한 방법들은 비디오 데이터에 내재된 역동적이며 프레임에 의존하는 양식별 중요도(modality saliency)의 변화를 고려하지 못한다. 이러한 한계를 극복하기 위해, 우리는 프레임 수준에서 시각, 텍스트, 오디오 양식의 기여도를 적응적으로 가중치화하고 융합하는 새로운 아키텍처 TripleSumm을 제안한다. 또한 다중모달 비디오 요약 연구를 위한 중요한 병목은 포괄적인 벤치마크의 부재였다. 이 병목을 해결하기 위해, 우리는 세 가지 양식을 모두 제공하는 최초의 대규모 벤치마크인 MoSu( Most Replayed Multimodal Video Summarization)를 도입한다. 광범위한 실험 결과, TripleSumm은 최신 성능을 달성하며 MoSu를 포함한 네 개의 벤치마크에서 기존 방법들보다 유의미한 큰 폭으로 성능이 향상됨을 보여준다. 우리의 코드와 데이터셋은 https://github.com/smkim37/TripleSumm 에서 제공된다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.