Learning to Refuse: Refusal-Aware Reinforcement Fine-Tuning for Hard-Irrelevant Queries in Video Temporal Grounding | 이지형 교수 연구실 | 성균관대학교 소프트웨어학과

|이지형 교수 연구실

홈

연구 영역

기본 정보

논문·특허

과제

구성원

Preprint|

인용수 0

·2025

Learning to Refuse: Refusal-Aware Reinforcement Fine-Tuning for Hard-Irrelevant Queries in Video Temporal Grounding

Jin-Seop Lee, Sungjoon Lee, SeongJun Jung, Boyang Li, Jee-Hyong Lee

ArXiv.org

초록

비디오 시간적 근거(Video Temporal Grounding, VTG)는 자연어 질의에 대응하는 비디오 내의 시간 구간을 국소화하는 것을 목표로 한다. 그러나 기존 VTG 모델은 관련 구간이 항상 존재한다고 가정하기 때문에, 질의가 비디오와 무관한 경우에도 항상 특정 대상 구간을 예측한다. 최근의 접근법은 무관한 질의를 처리하려고 시도하지만, 비디오와 완전히 무관한 질의만 거부할 수 있을 뿐, 의미적으로는 유사하나 실제로는 관련이 없는 고난도(unrelated) 무관 질의(hard-irrelevant queries)를 처리하지 못한다. 이를 해결하기 위해, 우리는 VTG에서 고난도 무관 질의를 효과적으로 거부하는 거부 인지형 강화 파인튜닝(Refusal-Aware Reinforcement Fine-Tuning, RA-RFT)을 제안한다. 본 방법은 Group Relative Policy Optimization(GRPO) 프레임워크를 기반으로 하며, 네 가지 보상 목적—포맷(format), refuse-IoU, explain, query correction—을 통합하여 관련성 구별과 세밀한 의미 추론을 모두 향상시킨다. 또한 RA-RFT를 효과적으로 지원하기 위해, 고난도 무관 VTG(Hard-Irrelevant VTG, HI-VTG) 데이터셋을 구성하였는데, 이는 고난도 무관 질의와 그에 대한 거부 응답을 포함한다. 우리는 고난도 무관 VTG, 단순-셔플 simply-shuffled RA-VTG, 그리고 사람 주석이 포함된 RA-VTG 설정을 포함하는 다양한 관련성 인지형 VTG 시나리오 전반에 걸쳐 본 방법의 효과를 입증한다. 아울러, 다양한 LVLM 기반 VTG 모델에 적용함으로써 제안 방법이 확장 가능함을 보여준다. 본 코드의 이용은 https://github.com/JINSUBY/RA-RFT 에서 가능하다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

Construct (python library)ScalabilityRelevance (law)Code (set theory)Reinforcement learningSemantics (computer science)

타입

Preprint

IF / 인용수

- / 0

원문

http://arxiv.org/abs/2511.23151

게재 연도

2025