일반 이벤트 경계 탐지(Generic Event Boundary Detection, GEBD)는 인간의 지각 관점에서 장시간 길이의 비디오를 해석하는 것을 목표로 한다. 그러나 현재의 GEBD 방법들은 예측을 위해 전체 비디오 프레임을 처리해야 하는 반면, 인간은 데이터를 온라인으로, 실시간으로 처리한다. 이러한 차이를 해소하기 위해 우리는 스트리밍 비디오에서 일반 이벤트의 경계를 즉시 탐지하는 새로운 과제인 온라인 일반 이벤트 경계 탐지(Online Generic Event Boundary Detection, On-GEBD)를 제안한다. 이 과제는 미래 프레임에 대한 접근 없이 실시간으로, 세밀하고 분류체계(taxonomy)가 없는 이벤트 변화(boundary)를 식별해야 한다는 고유한 도전에 직면한다. 이를 해결하기 위해 우리는 예측된 정보와 실제 정보 간의 불일치를 활용하여 인간이 진행 중인 활동을 어떻게 이벤트로 분절하는지 설명하는 사건 분절 이론(Event Segmentation Theory, EST)에 영감을 받은 새로운 On-GEBD 프레임워크인 Estimator를 제안한다. 우리의 프레임워크는 두 가지 핵심 구성요소로 이루어진다. 즉, 일관된 이벤트 예측기(Consistent Event Anticipator, CEA)와 온라인 경계 판별기(Online Boundary Discriminator, OBD)이다. 구체적으로 CEA는 오직 과거 프레임만을 기반으로 현재 이벤트 역학을 반영하는 미래 프레임에 대한 예측을 생성한다. 그 다음 OBD는 예측 오차를 측정하고, 과거 오차에 대한 통계적 검정을 통해 임계값을 적응적으로 조정함으로써 다양한 세밀한 이벤트 전이를 포착한다. 실험 결과는 Estimator가 최근 온라인 비디오 이해 모델에서 적응된 모든 베이스라인을 능가하며, Kinetics-GEBD 및 TAPOS 데이터셋에서 이전의 오프라인 GEBD 방법들과 비교 가능한 성능을 달성함을 보여준다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.