Lightweight Temporal Contextual Fine-Tuning Method of Large Multimodal Model for Video Moment Retrieval | 강제원 교수 연구실 | 이화여자대학교 융합전자반도체공학부

강제원 교수 연구실

홈

기본 정보

연구 분야

프로젝트

논문

구성원

article|

인용수 0

·2025

Lightweight Temporal Contextual Fine-Tuning Method of Large Multimodal Model for Video Moment Retrieval

Semi Kwon, Ju-Hee Lee, Je‐Won Kang

초록

비디오 모먼트 검색(Video moment retrieval, VMR) 과제는 대규모 멀티모달 모델(LMM)을 기반으로 입력 비디오의 비디오-언어 특징을 포괄적으로 이해해야 한다. 본 논문에서는 VMR의 일반화 능력을 향상시키기 위해 시간적 맥락 프롬프트를 도입하고, LMM 모델에 맥락 정보를 제공한다. 시간적 맥락 프롬프트를 기존의 프롬프트에 통합하고, 임베딩 모듈을 통해 통합 토큰을 얻는다. 시간적 맥락 프롬프트는 시간적 조건부 토큰으로 변환되며, 주어진 질의 텍스트와 비디오 간의 시간적 상관관계를 나타내는 임베딩 표현으로서 이를 미세조정한다. 또한 모델을 양자화하고 LoRA를 적용하여 제한된 자원 환경에서의 효율적인 학습을 시연한다. Charades-STA에 대한 실험 결과, 기존의 최첨단 성능 대비 mIoU에서 3.78 퍼센트, R1@0.5에서 0.85 퍼센트의 향상이 나타났다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

Computer scienceMoment (physics)Artificial intelligenceComputer visionPhysics

타입

article

IF / 인용수

- / 0

원문

https://doi.org/10.1109/icip55913.2025.11084592

게재 연도

2025

프로젝트 공고 서비스 문의 자주 묻는 질문 이용약관 개인정보처리방침

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)