우리는 비디오 시간적 근거(temporal grounding)에서 중요한 과제인, 무관한 배경 맥락에 대해서도 견고함을 유지하면서 시간적으로 민감한 비디오-텍스트 정렬을 달성하는 Context-aware Video-text Alignment(CVA)라는 새로운 프레임워크를 제안한다. 우리의 프레임워크는 세 가지 핵심 구성 요소로 이루어진다. 첫째, 우리는 의미적으로 관련 없는 콘텐츠만 혼합되도록 보장하는 새로운 데이터 증강 전략인 Query-aware Context Diversification(QCD)을 제안한다. 이는 쿼리 비특화(query-agnostic) 혼합으로 인해 발생하는 ``false negative''를 방지하면서, 다양한 맥락을 시뮬레이션하기 위해 비디오-텍스트 유사도 기반의 대체 클립 풀(pool)을 구축한다. 둘째, 우리는 어려운 시간 경계(temporal boundaries)에서 의미적 일관성을 강제하여, 그 표현이 맥락 변화와 하드 네거티브(hard negatives)에 대해 강건해지도록 하는 대비 학습(contrastive) 손실인 Context-invariant Boundary Discrimination(CBD) 손실을 도입한다. 셋째, 우리는 다중 스케일 시간적 맥락을 포착하기 위해 학습 가능한 쿼리를 사용하여 윈도우 기반 자기-어텐션(windowed self-attention)과 양방향 크로스-어텐션(bidirectional cross-attention)을 결합한 계층적 아키텍처인 Context-enhanced Transformer Encoder(CTE)를 도입한다. 이러한 데이터 중심의 개선과 아키텍처 개선의 시너지를 통해 CVA는 QVHighlights 및 Charades-STA를 포함한 주요 VTG 벤치마크에서 최첨단 성능을 달성한다. 특히, 우리의 방법은 기존 최첨단 방법 대비 Recall@1(R1) 점수에서 약 5점의 유의미한 향상을 보이며, false negative를 완화하는 데 효과적임을 강조한다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.