최근 온라인 비디오 인스턴스 분할(Video Instance Segmentation, VIS) 방법에서의 발전은 벤치마크 전반에서 주목할 만한 성능 향상을 보여준다. 그러나 추적-탐지(tracking-by-detection) 패러다임에서의 선도적 방법들은 인스턴스 수준과 픽셀 수준 모두에서 시간적으로 일관되지 않은 예측을 초래하는 경우가 많아, 시각적으로 만족스럽지 못한 결과로 이어진다. 이러한 문제를 해결하기 위해, 본 연구에서는 분할과 추적을 통합하여 일관된 온라인 VIS를 제공하는 단순하면서도 효과적인 접근법인 RoCoVIS를 제안한다. 우리의 접근법은 객체 쿼리를 마스크 예측을 통해 전파하는 종단 간 순차 학습(end-to-end sequential learning)으로, 픽셀 수준에서의 시간적 인스턴스 매핑 정확도를 향상시킨다. 또한, 우리의 접근법과 조화를 이루는 새로운 레이블 할당 기준을 제안한다. 더불어 현재의 표준 평가 프로토콜(AP)이 제시하는 한계와 도전 과제를 검토하고, Tube-Boundary AP와 AP_Pool을 포함한 추가 지표의 채택을 제안한다. RoCoVIS는 Swin-L 백본을 사용한 어려운 VIS 벤치마크에서 우수한 성능을 보이며, ResNet-50 백본을 사용할 때에도 경쟁력 있는 결과를 나타낸다. 마스크 정확도와 일관성을 측정하기 위한 지표로 Tube-Boundary AP와 AP_Pool을 사용함으로써, RoCoVIS는 HQ-YTVIS와 VIPSeg에서 대응 방법인 GenVIS를 능가한다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.