CVA: Context-aware Video-text Alignment for Video Temporal Grounding | 임성훈 교수 연구실 | 대구경북과학기술원 전기전자컴퓨터공학과

임성훈 교수 연구실

홈

기본 정보

연구 분야

프로젝트

논문

구성원

preprint|

인용수 0

·2026

CVA: Context-aware Video-text Alignment for Video Temporal Grounding

Sungho Moon, Seunghun Lee, Jiwan Seo, Sunghoon Im

arXiv (Cornell University)

초록

우리는 비디오 시간적 근거(temporal grounding)에서 중요한 과제인, 무관한 배경 맥락에 대해서도 견고함을 유지하면서 시간적으로 민감한 비디오-텍스트 정렬을 달성하는 Context-aware Video-text Alignment(CVA)라는 새로운 프레임워크를 제안한다. 우리의 프레임워크는 세 가지 핵심 구성 요소로 이루어진다. 첫째, 우리는 의미적으로 관련 없는 콘텐츠만 혼합되도록 보장하는 새로운 데이터 증강 전략인 Query-aware Context Diversification(QCD)을 제안한다. 이는 쿼리 비특화(query-agnostic) 혼합으로 인해 발생하는 ``false negative''를 방지하면서, 다양한 맥락을 시뮬레이션하기 위해 비디오-텍스트 유사도 기반의 대체 클립 풀(pool)을 구축한다. 둘째, 우리는 어려운 시간 경계(temporal boundaries)에서 의미적 일관성을 강제하여, 그 표현이 맥락 변화와 하드 네거티브(hard negatives)에 대해 강건해지도록 하는 대비 학습(contrastive) 손실인 Context-invariant Boundary Discrimination(CBD) 손실을 도입한다. 셋째, 우리는 다중 스케일 시간적 맥락을 포착하기 위해 학습 가능한 쿼리를 사용하여 윈도우 기반 자기-어텐션(windowed self-attention)과 양방향 크로스-어텐션(bidirectional cross-attention)을 결합한 계층적 아키텍처인 Context-enhanced Transformer Encoder(CTE)를 도입한다. 이러한 데이터 중심의 개선과 아키텍처 개선의 시너지를 통해 CVA는 QVHighlights 및 Charades-STA를 포함한 주요 VTG 벤치마크에서 최첨단 성능을 달성한다. 특히, 우리의 방법은 기존 최첨단 방법 대비 Recall@1(R1) 점수에서 약 5점의 유의미한 향상을 보이며, false negative를 완화하는 데 효과적임을 강조한다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

EncoderTransformerBespokeKey (lock)Robustness (evolution)Context (archaeology)ArchitectureLandmarkConsistency (knowledge bases)Context model

타입

preprint

IF / 인용수

- / 0

원문

https://doi.org/10.48550/arxiv.2603.24934

게재 연도

2026

프로젝트 공고 서비스 문의 자주 묻는 질문 이용약관 개인정보처리방침

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)