클래스 비의존적 3D 인스턴스 분할은 미지의 환경에서 작동하는 로봇 시스템에 필수적이며, 안정적인 조작과 항법을 위해 이전에 보지 못한 대상에 대한 지각을 가능하게 한다. 기존 접근법은 대개 프레임별 2D 인스턴스 마스크를 3D로 투영한 뒤 이를 병합하는데, 이 과정에서는 시간에 따른 객체 정체성이 자주 깨지고 3D 인스턴스가 조각난 형태로 나타난다. 우리는 2D 인스턴스 마스크를 프레임 전반에 걸쳐 명시적으로 추적하고 이를 3D 초포인트(superpoints)와 연관시키는 제로샷 프레임워크인 Cross-Dimensional Class-Agnostic 3D Instance Segmentation(CDIS)을 제안한다. CDIS는 2D와 3D 사이에 피드백 루프를 형성함으로써, 시간적으로 안정적인 2D 트랙을 공간적으로 일관된 3D 영역과 연결하는 교차 차원 추론을 수행한다. 그 결과, 어떤 3D 특화 학습도 없이 전역적으로 일관된 3D 인스턴스 라벨을 생성한다. 벤치마크 데이터셋에서의 실험은 CDIS가 최신의 제로샷 방법보다 더 높은 정확도와 일관성을 달성함과 동시에, 다양한 실제 환경에도 효율적이며 확장 가능함을 보여준다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.