영상 인스턴스 분할(Video instance segmentation, VIS)은 로봇 지각에 있어 중요하지만, 최신 트랜스포머 기반 방법은 엣지 배치를 위한 계산 자원을 요구한다. 우리는 비디오 인스턴스 분할을 위해 특별히 설계된 최초의 지식 증류 프레임워크인 Edge-VIS를 제안한다. 이는 이전에 탐구되지 않았던, 트랜스포머 기반 교사(GenVIS-Swin-L, 1,229 M 파라미터)로부터 경량 CNN 기반 학생(수정된 YOLOv8n-seg, 2.7 M 파라미터)으로 동시에 정교한 시공간 추론, 공간 분할 정확도, 그리고 시간적 인스턴스 추적 일관성을 전이하는 문제를 다룬다. 엣지 로봇 시스템을 위한 실시간 엣지 배치를 목표로 한다. 우리의 다단계 증류 전략은 분할 품질과 시간적 안정성을 모두 보존하기 위해 특징 수준, 반응 수준, 그리고 주의(attention) 기반 증류를 포함한다. 심각한 제약을 강조하는 난도 높은 폐색 비디오 인스턴스 분할(Occluded Video Instance Segmentation, OVIS) 데이터셋에서 Edge-VIS는 mAP@0.5 기준 46.0%를 달성하면서, 14 GFLOPs만을 요구하여(기준 대비 36.4% 감소) 2.7 M 파라미터만 사용한다(기준 YOLOv8n-seg 대비 15.6% 감소). 교사 모델 대비 Edge-VIS는 정확도 66.5%를 달성하며, 455배 더 높은 파라미터 효율성을 보이고 10.4배 더 빠른 추론을 제공한다(52 대 5 FPS). NVIDIA Jetson AGX Orin에서의 배치는 29 W의 전력 소모만으로 250 FPS에서 실시간 성능을 입증하여, 배터리 구동 로봇 시스템에서의 실용 가능성을 확인한다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.