실시간 비디오 이해를 위한 시간적 행동탐지 및 학습비재학습 추론 분할 연구

Real-time Video Understanding for Temporal Action Localization and Training-free Video Reasoning Segmentation

연구 내용

스트리밍 환경에서 시간적 행동을 온라인으로 탐지하고, 오픈보컬러리 설정과 학습비재학습 추론 분할을 통해 비디오 이해를 수행하는 연구

비디오 이해를 실시간 스트리밍 처리와 낮은 학습 비용 관점에서 수행합니다. 시간적 행동 탐지에서는 온라인 처리 제약을 반영하여 temporal action localization을 프레임 단위로 누적 추론하도록 구성하고, 라벨 부족 문제를 해결하기 위해 YouTube 무라벨 데이터를 활용한 self-training 확장 연구를 수행합니다. open-vocabulary 설정을 위해 클래스 확장 평가 체계를 함께 다룹니다. 또한 MLLM의 주의(attention)를 video reasoning segmentation에 직접 전환하되, 원시 attention map의 노이즈를 줄이기 위해 객체-배경 대조적 융합과 비디오-프레임 상보적 융합을 결합한 Decomposed Attention Fusion을 제안합니다. 생성된 거친 분할은 attention-guided SAM2 prompting으로 정밀 마스크를 얻도록 연결합니다.

관련 프로젝트

5건

연구 흐름

초기에는 온라인 처리를 목표로 temporal action localization을 위한 네트워크 구조를 제안하며, 추론 지연을 줄이는 방향으로 연구 기반을 마련했습니다. 이후에는 실제 데이터 라벨의 한계를 완화하기 위해 self-training을 확장하여 open-vocabulary temporal action localization의 일반화 성능을 높이는 흐름으로 발전했습니다. 동시에 비디오 추론을 분할 문제로 캐스팅하고, MLLM attention을 학습비재학습 방식으로 coarse mask로 변환하기 위한 분해형 주의 융합 전략을 도입했습니다. 최근에는 스트리밍 비디오 이해를 위해 transformer 한계를 보완하는 Video SSM 형태의 상태공간 모델 프로젝트를 병행하며 연속 입력 환경에서의 동작을 강화하는 방향으로 진행하고 있습니다.

활용 가능성

활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.

온라인 시간적 행동 탐지
실시간 스트리밍 비디오 이해
오픈보컬러리 행동 지역화
웹 데이터 기반 의사 라벨 학습
학습비재학습 비디오 추론 분할
참조·추론 VOS 확장
상태공간 기반 연속 추론
비정상·의심상황 예측
일반 이벤트 경계 탐지
지능형 관제 및 모니터링