시각적으로 유사한 물체를 운동(모션)으로 구분하는 일은 컴퓨터 비전에서 여전히 핵심적인 과제이다. 지도 학습 기반 트래커는 가능성을 보이지만, 최근의 자기지도 학습 트래커는 시각적 단서가 모호해질 때 어려움을 겪어, 대규모 라벨 데이터 없이 확장성과 일반화를 제한받는다. 본 연구에서는 사전 학습된 비디오 확산 모델이 과업 특화 학습 없이도 추적에 적합한 모션 표현을 본질적으로 학습한다는 점을 발견하였다. 이러한 능력은, 후속의 외형(appearance) 정교화와 구별되게, 디노이징(denoising) 과정의 초기의 높은 노이즈 단계에서 모션을 분리해 내기 때문에 발생한다. 이 발견을 바탕으로, 우리는 자기지도 학습 트래커를 통해 시각적으로 유사한 물체를 구분하는 성능을 크게 향상시켰으며, 이는 기존 방법에서 충분히 탐구되지 않은 취약 지점이다. 우리의 방법은 기존의 확립된 벤치마크에서 최근 자기지도 학습 접근법 대비 최대 6점의 향상을 달성하고, 시각적으로 유사한 항목의 추적에 초점을 둔 새롭게 도입한 테스트에서도 성능을 평가한다. 시각화 결과는 확산에서 유도된 모션 표현이, 도전적인 시점 변화와 변형에도 불구하고 심지어 동일한 물체에 대해서도 견고한 추적을 가능하게 함을 확인해 준다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.