영상 요약(video summarization)은 영상의 전체 길이를 줄이면서도 필수 콘텐츠와 핵심 장면을 포착하여 간결한 영상 표현을 생성하는 것을 목표로 한다. 장기 의존성을 처리하기 위해 여러 방법이 주의(attention) 메커니즘을 사용하지만, 종종 프레임에 내재된 시각적 중요성을 충분히 포착하지 못한다. 이러한 한계를 해결하기 위해, 단일 비디오로부터 각 프레임의 특징을 적층하여 이미지와 유사한 프레임 표현을 형성한 뒤, 이러한 프레임 특징에 2D CNN을 적용하는 CNN 기반 시공간 주의(CSTA) 방법을 제안한다. 본 방법론은 CNN의 특성을 활용하여 영상 내에서 절대적 위치를 학습함으로써 프레임 간 및 프레임 내 관계를 이해하고, 비디오에서 핵심 속성을 찾아내는 데에 기반을 둔다. 공간적 중요성에 초점을 맞추기 위한 추가 모듈을 설계하여 효율을 저해했던 기존 연구와 달리, CSTA는 CNN을 슬라이딩 윈도우로 사용하므로 연산 오버헤드가 최소이며, 효율성이 유지된다. SumMe와 TVSum의 두 벤치마크 데이터셋에서의 광범위한 실험 결과, 제안한 접근법은 이전 방법들에 비해 더 적은 MACs를 사용하면서도 최첨단 성능을 달성함을 보여준다. 코드는 https://github.com/thswodnjs3/CSTA 에서 제공된다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.