CVA: Context-aware Video-text Alignment for Video Temporal Grounding | 임성훈 교수 연구실 | 대구경북과학기술원 전기전자컴퓨터공학과

임성훈 교수 연구실

홈

기본 정보

연구 분야

프로젝트

논문

구성원

article|

인용수 0

·2026

CVA: Context-aware Video-text Alignment for Video Temporal Grounding

Sungho Moon, Seunghun Lee, Jiwan Seo, Sunghoon Im

ArXiv.org

초록

우리는 비디오 시간적 그라운딩에서의 중요한 문제—시간에 민감한 비디오-텍스트 정렬을 달성하면서도 무관한 배경 맥락에 대해 견고함을 유지하는 것—를 해결하기 위한 새로운 프레임워크인 문맥 인지 비디오-텍스트 정렬(Context-aware Video-text Alignment, CVA)을 제안한다. 우리의 프레임워크는 세 가지 핵심 구성요소로 이루어진다. 첫째, 우리는 의미적으로 무관한 콘텐츠만이 혼합되도록 보장하는 새로운 데이터 증강 전략인 질의 인지 문맥 다변화(Query-aware Context Diversification, QCD)를 제안한다. 이는 질의 비의존적 혼합으로 인해 발생하는 ``false negative''를 방지하면서, 다양한 맥락을 모사하기 위해 비디오-텍스트 유사도 기반의 대체 클립 풀을 구축한다. 둘째, 우리는 까다로운 시간 경계에서 의미 일관성을 강제하여, 해당 경계의 표현이 문맥 변화 및 어려운 네거티브(hard negatives)에 강건하도록 하는 대조학습(contrastive) 손실인 문맥 불변 경계 판별(Context-invariant Boundary Discrimination, CBD) 손실을 도입한다. 셋째, 우리는 다중 스케일의 시간적 맥락을 포착하기 위해 학습 가능한 질의를 사용하여 윈도우 기반 자기-주의와 양방향 교차-주의를 결합하는 계층적 아키텍처인 문맥 강화 트랜스포머 인코더(Context-enhanced Transformer Encoder, CTE)를 도입한다. 이러한 데이터 중심의 개선과 아키텍처적 개선의 시너지를 통해, CVA는 QVHighlights 및 Charades-STA를 포함한 주요 VTG 벤치마크에서 최첨단 성능을 달성한다. 특히, 본 방법은 최첨단 방법 대비 Recall@1 (R1) 점수에서 약 5점의 유의미한 향상을 보이며, false negative를 완화하는 데 효과적임을 강조한다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

EncoderTransformerBespokeKey (lock)Robustness (evolution)Context (archaeology)ArchitectureLandmarkConsistency (knowledge bases)Context model

타입

article

IF / 인용수

- / 0

원문

http://arxiv.org/abs/2603.24934

게재 연도

2026

프로젝트 공고 서비스 문의 자주 묻는 질문 이용약관 개인정보처리방침

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)