우리는 비디오 시간적 그라운딩에서의 중요한 문제—시간에 민감한 비디오-텍스트 정렬을 달성하면서도 무관한 배경 맥락에 대해 견고함을 유지하는 것—를 해결하기 위한 새로운 프레임워크인 문맥 인지 비디오-텍스트 정렬(Context-aware Video-text Alignment, CVA)을 제안한다. 우리의 프레임워크는 세 가지 핵심 구성요소로 이루어진다. 첫째, 우리는 의미적으로 무관한 콘텐츠만이 혼합되도록 보장하는 새로운 데이터 증강 전략인 질의 인지 문맥 다변화(Query-aware Context Diversification, QCD)를 제안한다. 이는 질의 비의존적 혼합으로 인해 발생하는 ``false negative''를 방지하면서, 다양한 맥락을 모사하기 위해 비디오-텍스트 유사도 기반의 대체 클립 풀을 구축한다. 둘째, 우리는 까다로운 시간 경계에서 의미 일관성을 강제하여, 해당 경계의 표현이 문맥 변화 및 어려운 네거티브(hard negatives)에 강건하도록 하는 대조학습(contrastive) 손실인 문맥 불변 경계 판별(Context-invariant Boundary Discrimination, CBD) 손실을 도입한다. 셋째, 우리는 다중 스케일의 시간적 맥락을 포착하기 위해 학습 가능한 질의를 사용하여 윈도우 기반 자기-주의와 양방향 교차-주의를 결합하는 계층적 아키텍처인 문맥 강화 트랜스포머 인코더(Context-enhanced Transformer Encoder, CTE)를 도입한다. 이러한 데이터 중심의 개선과 아키텍처적 개선의 시너지를 통해, CVA는 QVHighlights 및 Charades-STA를 포함한 주요 VTG 벤치마크에서 최첨단 성능을 달성한다. 특히, 본 방법은 최첨단 방법 대비 Recall@1 (R1) 점수에서 약 5점의 유의미한 향상을 보이며, false negative를 완화하는 데 효과적임을 강조한다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.