시간적 행위 국소화(temporal action localization, TAL)에서 어휘 크기는 대규모 주석 데이터셋의 희소성으로 인해 제한된다. 이를 극복하기 위해 최근 연구들은 CLIP과 같은 시각-언어 모델(vision-language models, VLMs)을 통합하여 개방어휘 TAL(openvocabulary TAL, OV-TAL)을 수행한다. 그러나 광범위한 데이터셋에서 학습된 VLM의 성공에도 불구하고, 기존의 OV-TAL 방법들은 여전히 한정된 규모의 인간 라벨 TAL 데이터셋에 의존하여 행위 국소화기를 학습하며, 이로 인해 일반화 가능성이 제한된다. 본 논문에서는 라벨이 없는 YouTube 영상을 활용한 자기학습(self-training)의 확장성을 OV-TAL에서 탐구한다. 우리의 접근 방식은 두 단계로 구성된다: (1) 인간이 라벨링한 TAL 데이터셋에서 클래스 비특정(class-agnostic) 행위 국소화기를 학습하여 라벨이 없는 영상에 대한 의사 라벨(pseudo-labels)을 생성하고, (2) 그 후 대규모 의사 라벨링된 데이터셋을 사용하여 국소화기를 학습한다. 광범위한 실험을 통해, 자기학습에서 웹 스케일 비디오를 활용하면 행위 국소화기의 일반화가 유의미하게 향상됨을 확인하였다. 또한 기존 OV-TAL 평가 체계의 한계를 규명하고, 철저한 평가를 위한 새로운 벤치마크를 제안한다. 마지막으로, 새 벤치마크에서 대규모 멀티모달 모델인 Gemini-1.5의 TAL 성능을 시연한다. 코드는 https://github.com/HYUNJS/STOV-TAL 에 공개되어 있다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.