Video Diffusion Models Excel at Tracking Similar-Looking Objects Without Supervision | 김준모 교수 연구실 | 한국과학기술원 전기및전자공학부

김준모 교수 연구실

서비스 플랜

연구실 검색

프로젝트 공고

정부 과제 추천

AI 기반 기업 서칭

홈

기본 정보

연구 분야

프로젝트

논문

구성원

article|

인용수 0

·2025

Video Diffusion Models Excel at Tracking Similar-Looking Objects Without Supervision

Chenshuang Zhang, Kang Zhang, Joon Son Chung, In So Kweon, Junmo Kim, Chengzhi Mao

ArXiv.org

초록

시각적으로 유사한 물체를 운동(모션)으로 구분하는 일은 컴퓨터 비전에서 여전히 핵심적인 과제이다. 지도 학습 기반 트래커는 가능성을 보이지만, 최근의 자기지도 학습 트래커는 시각적 단서가 모호해질 때 어려움을 겪어, 대규모 라벨 데이터 없이 확장성과 일반화를 제한받는다. 본 연구에서는 사전 학습된 비디오 확산 모델이 과업 특화 학습 없이도 추적에 적합한 모션 표현을 본질적으로 학습한다는 점을 발견하였다. 이러한 능력은, 후속의 외형(appearance) 정교화와 구별되게, 디노이징(denoising) 과정의 초기의 높은 노이즈 단계에서 모션을 분리해 내기 때문에 발생한다. 이 발견을 바탕으로, 우리는 자기지도 학습 트래커를 통해 시각적으로 유사한 물체를 구분하는 성능을 크게 향상시켰으며, 이는 기존 방법에서 충분히 탐구되지 않은 취약 지점이다. 우리의 방법은 기존의 확립된 벤치마크에서 최근 자기지도 학습 접근법 대비 최대 6점의 향상을 달성하고, 시각적으로 유사한 항목의 추적에 초점을 둔 새롭게 도입한 테스트에서도 성능을 평가한다. 시각화 결과는 확산에서 유도된 모션 표현이, 도전적인 시점 변화와 변형에도 불구하고 심지어 동일한 물체에 대해서도 견고한 추적을 가능하게 함을 확인해 준다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

BitTorrent trackerTracking (education)Motion (physics)Process (computing)Video trackingEye trackingPoint (geometry)Generalization

타입

article

IF / 인용수

- / 0

원문

http://arxiv.org/abs/2512.02339

게재 연도

2025

프로젝트 공고 서비스 문의 자주 묻는 질문 이용약관 개인정보처리방침

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)