기본 정보
연구 분야
프로젝트
논문
구성원
article|
·
인용수 17
·2024
CSTA: CNN-based Spatiotemporal Attention for Video Summarization
Jaewon Son, Jaehun Park, Kwangsu Kim
초록

비디오 요약은 비디오의 전체 길이를 줄이면서도 필수 내용과 핵심 장면을 포착하여, 간결한 표현(representation)을 생성하는 것을 목표로 한다. 여러 방법들이 장기 의존성을 처리하기 위해 어텐션 메커니즘을 사용하지만, 그러한 방법들은 종종 프레임에 내재된 시각적 중요성을 충분히 포착하지 못한다. 이러한 한계를 해결하기 위해, 우리는 단일 비디오로부터 얻은 프레임들의 각 특징을 적층하여 이미지와 유사한 프레임 표현을 형성하고, 이러한 프레임 특징에 2D CNN을 적용하는 CNN 기반 공간-시간 어텐션(CSTA) 방법을 제안한다. 우리의 방법론은 CNN의 능력을 활용하여 이미지 내에서의 절대적 위치를 학습함으로써, 프레임 간 및 프레임 내 관계를 이해하고 비디오에서 중요한 속성을 찾아내는 데에 기반한다. 공간적 중요성에 집중하기 위해 추가 모듈을 설계함으로써 효율을 저하시키던 기존 연구와 달리, CSTA는 CNN을 슬라이딩 윈도우로 사용하므로 최소한의 연산 오버헤드만 필요로 한다. SumMe와 TVSum의 두 벤치마크 데이터셋에 대한 광범위한 실험 결과, 제안된 접근법은 이전 방법들에 비해 더 적은 MACs로도 최신(state-of-the-art) 성능을 달성함을 보여준다. 코드는 https://github.com/thswodnjs3/CSTA 에서 제공된다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드
Automatic summarizationComputer scienceArtificial intelligenceComputer visionComputer graphics (images)Multimedia
타입
article
IF / 인용수
- / 17
게재 연도
2024

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)

© 2026 RnDcircle. All Rights Reserved.