오픈 보캐뷸러리 3D 객체 탐지는 고정된 학습 분류 체계(training taxonomy) 밖에 있는 객체를 위치 추정하고 인식하는 것을 목표로 한다. 다중 뷰 RGB 설정에서 최근 접근법들은 흔히 기하 기반 인스턴스 구성(instance construction)과 의미 라벨링(semantic labeling)을 분리하여, 분류 비특정(class-agnostic) 조각 조각(fragment)을 생성한 뒤 사후적으로(open-vocabulary) 범주를 할당한다. 이러한 유연한 분리는, 병합(merging) 과정에서 의미적 제약이 부재한 상태에서 인스턴스 구성을 주로 기하적 일관성에 의해 좌우한다. 기하적 증거가 뷰 의존적이고 불완전할 때, 기하만에 기반한 병합은 서로 다른 객체 간의 잘못된 비가역적 연관(association error)으로 이어질 수 있으며, 예컨대 서로 다른 객체를 과도하게 병합(over-merging)하거나 단일 인스턴스를 분절(fragmentation)하는 문제가 발생한다. 본 연구에서는 인스턴스 구성 과정에 의미적 제약을 직접 통합하는 다중 뷰 오픈 보캐뷸러리 3D 탐지 프레임워크인 Group3D를 제안한다. Group3D는 멀티모달 대규모 언어 모델(multimodal large language model, MLLM)에서 유도한 장면 적응형(scene-adaptive) 보캐뷸러리를 유지하고, 이를 그럴듯한 교차 뷰 범주 동치성(cross-view category equivalence)을 인코딩하는 의미 호환성 그룹(semantic compatibility groups)으로 구성한다. 이러한 그룹은 병합 시점 제약(merge-time constraints)으로 작동한다. 즉, 3D 조각은 의미 호환성과 기하적 일관성 모두를 만족할 때만 연관된다. 의미에 의해 게이트된 병합은 기하 중심의 과도 병합을 완화하면서, 다중 뷰 범주 변동성도 수용한다. Group3D는 자세(pose)를 알 수 있는 설정과 자세가 없는 설정 모두를 지원하며, RGB 관측에만 의존한다. ScanNet 및 ARKitScenes에 대한 실험 결과, Group3D는 다중 뷰 오픈 보캐뷸러리 3D 탐지에서 최첨단 성능을 달성하는 동시에, 제로샷(zero-shot) 시나리오에서도 강력한 일반화 성능을 보인다. 프로젝트 페이지는 https://ubin108.github.io/Group3D/ 에서 확인할 수 있다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.