Exploring Scalability of Self-Training for Open-Vocabulary Temporal Action Localization | 김선주 교수 연구실 | 연세대학교 컴퓨터과학과

김선주 교수 연구실

홈

기본 정보

연구 분야

프로젝트

논문

구성원

article|

인용수 1

·2025

Exploring Scalability of Self-Training for Open-Vocabulary Temporal Action Localization

Jeongseok Hyun, Su Ho Han, Hyolim Kang, Joon‐Young Lee, Seon Joo Kim

초록

시간적 행위 국소화(temporal action localization, TAL)에서 어휘 크기는 대규모 주석 데이터셋의 희소성으로 인해 제한된다. 이를 극복하기 위해 최근 연구들은 CLIP과 같은 시각-언어 모델(vision-language models, VLMs)을 통합하여 개방어휘 TAL(openvocabulary TAL, OV-TAL)을 수행한다. 그러나 광범위한 데이터셋에서 학습된 VLM의 성공에도 불구하고, 기존의 OV-TAL 방법들은 여전히 한정된 규모의 인간 라벨 TAL 데이터셋에 의존하여 행위 국소화기를 학습하며, 이로 인해 일반화 가능성이 제한된다. 본 논문에서는 라벨이 없는 YouTube 영상을 활용한 자기학습(self-training)의 확장성을 OV-TAL에서 탐구한다. 우리의 접근 방식은 두 단계로 구성된다: (1) 인간이 라벨링한 TAL 데이터셋에서 클래스 비특정(class-agnostic) 행위 국소화기를 학습하여 라벨이 없는 영상에 대한 의사 라벨(pseudo-labels)을 생성하고, (2) 그 후 대규모 의사 라벨링된 데이터셋을 사용하여 국소화기를 학습한다. 광범위한 실험을 통해, 자기학습에서 웹 스케일 비디오를 활용하면 행위 국소화기의 일반화가 유의미하게 향상됨을 확인하였다. 또한 기존 OV-TAL 평가 체계의 한계를 규명하고, 철저한 평가를 위한 새로운 벤치마크를 제안한다. 마지막으로, 새 벤치마크에서 대규모 멀티모달 모델인 Gemini-1.5의 TAL 성능을 시연한다. 코드는 https://github.com/HYUNJS/STOV-TAL 에 공개되어 있다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

Computer scienceTraining (meteorology)ScalabilityVocabularyAction (physics)Artificial intelligenceNatural language processingSpeech recognitionLinguisticsDatabase

타입

article

IF / 인용수

- / 1

원문

https://doi.org/10.1109/wacv61041.2025.00911

게재 연도

2025

프로젝트 공고 서비스 문의 자주 묻는 질문 이용약관 개인정보처리방침

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)