Group3D: MLLM-Driven Semantic Grouping for Open-Vocabulary 3D Object Detection | 박은병 교수 연구실 | 연세대학교 인공지능학과

박은병 교수 연구실

홈

기본 정보

연구 분야

프로젝트

논문

구성원

article|

인용수 0

·2026

Group3D: MLLM-Driven Semantic Grouping for Open-Vocabulary 3D Object Detection

Youbin Kim, Jinho Park, Hogun Park, Eunbyung Park

ArXiv.org

초록

오픈 보캐뷸러리 3D 객체 탐지는 고정된 학습 분류 체계(training taxonomy) 밖에 있는 객체를 위치 추정하고 인식하는 것을 목표로 한다. 다중 뷰 RGB 설정에서 최근 접근법들은 흔히 기하 기반 인스턴스 구성(instance construction)과 의미 라벨링(semantic labeling)을 분리하여, 분류 비특정(class-agnostic) 조각 조각(fragment)을 생성한 뒤 사후적으로(open-vocabulary) 범주를 할당한다. 이러한 유연한 분리는, 병합(merging) 과정에서 의미적 제약이 부재한 상태에서 인스턴스 구성을 주로 기하적 일관성에 의해 좌우한다. 기하적 증거가 뷰 의존적이고 불완전할 때, 기하만에 기반한 병합은 서로 다른 객체 간의 잘못된 비가역적 연관(association error)으로 이어질 수 있으며, 예컨대 서로 다른 객체를 과도하게 병합(over-merging)하거나 단일 인스턴스를 분절(fragmentation)하는 문제가 발생한다. 본 연구에서는 인스턴스 구성 과정에 의미적 제약을 직접 통합하는 다중 뷰 오픈 보캐뷸러리 3D 탐지 프레임워크인 Group3D를 제안한다. Group3D는 멀티모달 대규모 언어 모델(multimodal large language model, MLLM)에서 유도한 장면 적응형(scene-adaptive) 보캐뷸러리를 유지하고, 이를 그럴듯한 교차 뷰 범주 동치성(cross-view category equivalence)을 인코딩하는 의미 호환성 그룹(semantic compatibility groups)으로 구성한다. 이러한 그룹은 병합 시점 제약(merge-time constraints)으로 작동한다. 즉, 3D 조각은 의미 호환성과 기하적 일관성 모두를 만족할 때만 연관된다. 의미에 의해 게이트된 병합은 기하 중심의 과도 병합을 완화하면서, 다중 뷰 범주 변동성도 수용한다. Group3D는 자세(pose)를 알 수 있는 설정과 자세가 없는 설정 모두를 지원하며, RGB 관측에만 의존한다. ScanNet 및 ARKitScenes에 대한 실험 결과, Group3D는 다중 뷰 오픈 보캐뷸러리 3D 탐지에서 최첨단 성능을 달성하는 동시에, 제로샷(zero-shot) 시나리오에서도 강력한 일반화 성능을 보인다. 프로젝트 페이지는 https://ubin108.github.io/Group3D/ 에서 확인할 수 있다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

VocabularyENCODERGB color modelObject detectionSemantic mappingPattern recognition (psychology)

타입

article

IF / 인용수

- / 0

원문

http://arxiv.org/abs/2603.21944

게재 연도

2026

프로젝트 공고 서비스 문의 자주 묻는 질문 이용약관 개인정보처리방침

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)