비디오 모먼트 검색(Video moment retrieval, VMR) 과제는 대규모 멀티모달 모델(LMM)을 기반으로 입력 비디오의 비디오-언어 특징을 포괄적으로 이해해야 한다. 본 논문에서는 VMR의 일반화 능력을 향상시키기 위해 시간적 맥락 프롬프트를 도입하고, LMM 모델에 맥락 정보를 제공한다. 시간적 맥락 프롬프트를 기존의 프롬프트에 통합하고, 임베딩 모듈을 통해 통합 토큰을 얻는다. 시간적 맥락 프롬프트는 시간적 조건부 토큰으로 변환되며, 주어진 질의 텍스트와 비디오 간의 시간적 상관관계를 나타내는 임베딩 표현으로서 이를 미세조정한다. 또한 모델을 양자화하고 LoRA를 적용하여 제한된 자원 환경에서의 효율적인 학습을 시연한다. Charades-STA에 대한 실험 결과, 기존의 최첨단 성능 대비 mIoU에서 3.78 퍼센트, R1@0.5에서 0.85 퍼센트의 향상이 나타났다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.