SummDiff: Generative Modeling of Video Summarization with Diffusion | 이준석 교수 연구실 | 서울대학교 데이터사이언스학과

|이준석 교수 연구실

홈

연구 영역

기본 정보

논문·특허

과제

구성원

Preprint|

인용수 0

·2025

SummDiff: Generative Modeling of Video Summarization with Diffusion

Kim, Kwanseok, Hahm, Jaehoon, Sumin Kim, J. Sul, Kim, Byunghak, Joonseok Lee

ArXiv.org

초록

비디오 요약은 필수적인 순간을 보존하면서 프레임의 부분집합을 선택하여 비디오를 단축하는 과제이다. 이러한 과제의 본질적인 주관성에도 불구하고, 기존 연구들은 여러 평가자에 대해 평균화된 프레임 점수로 결정적으로 회귀하는 방식에 그쳤으며, 좋은 요약이 무엇인지에 대한 내재된 주관성을 간과해 왔다. 우리는 비디오 요약을 조건부 생성 과제로 설정함으로써 새로운 문제 정식을 제안한다. 이를 통해 모델이 좋은 요약의 분포를 학습하고, 서로 다른 인간의 관점에 더 잘 부합하는 복수의 그럴듯한 요약을 생성할 수 있다. 비디오 요약에서 처음으로 확산 모델을 채택한 본 방법인 SummDiff는 입력 비디오에 조건을 둔 상태에서 시각적 맥락에 동적으로 적응하며, 여러 후보 요약을 생성한다. 광범위한 실험 결과, SummDiff는 다양한 벤치마크에서 최신 성능을 달성할 뿐 아니라, 개별 주석자의 선호와 밀접하게 일치하는 요약을 산출함을 보여준다. 또한 우리는, 요약 생성의 중요한 마지막 단계인 배낭(knapsack) 분석에서 비롯된 새로운 지표를 통해 더 깊은 통찰을 제공하며, 이는 평가에서 간과되어 왔다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

Automatic summarizationGenerative grammarTask (project management)Frame (networking)Generative modelProbabilistic logic

타입

Preprint

IF / 인용수

- / 0

원문

http://arxiv.org/abs/2510.08458

게재 연도

2025