본 논문에서는 긴 비디오 입력을 통해 복잡한 의미 구조를 이해하기 위한 새로운 참신한 방법을 제안한다. 기존의 비디오 이해 방법들은 단기 클립에 집중해 왔으며, 합성곱 신경망 또는 트랜스포머 아키텍처를 사용하여 해당 단기 클립을 위한 시각적 표현을 얻도록 학습되어 있다. 그러나 대부분의 현실 세계 비디오는 수 분에서 수 시간에 이르는 긴 비디오로 구성되므로, 이를 작은 클립으로 분할하고 그로부터 표현을 학습하는 방식은 본질적으로 긴 비디오 전체의 의미 구조를 이해하는 데 한계를 초래한다. 본 연구에서는 객체 기반 표현을 의미 단위로 정의하고, 그들 사이에 시공간적 고차 관계를 설정함으로써 비디오의 다중 과립(다중 그레인) 의미 구조를 학습하기 위한 새로운 알고리즘을 제안한다. 제안 방법은 시공간 그래프를 학습할 수 있는 새로운 트랜스포머 아키텍처와, 각 의미 단위에 대해 분리된 특징을 학습하기 위한 조합적 학습(compositional learning) 방법을 포함한다. 제안된 방법을 사용하여, 보지 못한 비디오에 대한 조합적 일반화 이해(compositional generalization understanding)라는 도전적인 비디오 과제를 해결한다. 실험을 통해 두 개의 도전적인 비디오 데이터셋에서 새로운 최첨단 성능을 입증한다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.