Transformer-augmented dual-branch siamese tracker with confidence-aware regression and adaptive template updating
K. S. Sachin Sakthi, Jae Hoon Jeong, Woo Young Choi
IF 3.9 (2026)
Scientific Reports
Siamese 네트워크를 이용한 시각적 객체 추적은 기준 타깃을 후보 영역과 매칭함으로써 효과적임이 입증되었다. 그러나 이들의 성능은 정적인 템플릿, 불충분한 컨텍스트 모델링, 약한 다중 수준 특징 통합에 의해 제한되며, 특히 가림(occlusion), 배경 잡음(background clutter), 외관 변화(appearance variation) 하에서 성능이 저하된다. 이러한 한계를 해결하기 위해 우리는 품질 인식(quality-aware) 및 강인한 추적을 지향하는 트랜스포머 보강형 Siamese 추적기 TSDTrack을 제안한다. 우리의 프레임워크는 ResNet 백본을 사용하여 다중 스케일의 계층적 특징을 추출하고, 의미 및 공간적 일관성을 향상시키기 위해 전역 주의(global attention)를 적용하는 트랜스포머 기반 모듈로 특징을 융합한다. 예측 헤드는 두 개의 분기(branch)로 구성된다. 첫째, 분류 응답의 신뢰도를 평가하는 신뢰도 인식 분기(confidence aware branch, CAB)이며, 둘째, 경계 상자 국소화를 이산 확률 분포(discrete probability distributions)로 모델링하는 회귀 분포 학습(regression distribution learning, RDL) 분기이다. 이는 불확실성 하에서 정밀도를 향상시킨다. 또한 CAB 점수에 기반해 대상 표현을 선택적으로 갱신하는 신뢰도 게이팅(confidence-gated) 템플릿 업데이트 전략을 도입함으로써, 드리프트(drift)를 회피하면서도 적응적 외관 모델링을 가능하게 한다. LaSOT, GOT-10k, OTB100, UAV123에 대한 실험 결과, TSDTrack은 정확도와 강인성 모두에서 최첨단 성능을 달성하였으며, LaSOT에서 55.5% 성공률, GOT-10k에서 67.5% AO, OTB100에서 71.6% AUC, UAV123에서 66.4% 성공률을 기록하여, 최근의 트랜스포머 기반 및 Siamese 추적기들을 능가한다.
https://doi.org/10.1038/s41598-026-35692-2
Minimum bounding box
Bounding overwatch
Context (archaeology)
Pattern recognition (psychology)
Matching (statistics)
Representation (politics)
Regression
Feature (linguistics)
Object (grammar)
상세 정보 바로가기