황성재 교수 연구실
기본 정보
연구 분야
프로젝트
논문
구성원
article|
·
인용수 3
·2025
Distilling Spectral Graph for Object-Context Aware Open-Vocabulary Semantic Segmentation
Chanyoung Kim, Dayun Ju, Woojung Han, Ming–Hsuan Yang, Seong Jae Hwang
초록

개방 어휘 의미 분할(Open-Vocabulary Semantic Segmentation, OVSS)은 최근의 비전-언어 모델(Vision-Language Models, VLMs)과 함께 발전하여, 다양한 학습 체계를 통해 사전에 정의된 범주를 넘어 분할을 수행할 수 있게 되었다. 특히 학습 없이 수행하는 훈련-프리(training-free) 방법은, OVSS의 핵심 목표인 보이지 않는 데이터를 처리하기 위한 확장 가능하고 손쉽게 배포할 수 있는 해결책을 제공한다. 그러나 여전히 중요한 문제가 남아 있는데, 이는 임의의 질의 프롬프트를 기반으로 OVSS의 도전적인 환경에서 복잡한 객체를 분할할 때 객체 수준의 문맥을 고려하지 않는다는 점이다. 이러한 간과는, 객체 내에서 의미적으로 일관된 요소들을 묶고 이를 사용자가 정의한 임의의 클래스에 정확히 대응시키는 모델의 능력을 제한한다. 본 연구에서는 이러한 한계를 극복하기 위해 이미지 안에 객체 수준의 맥락 정보를 통합하는 새로운 접근법을 제안한다. 구체적으로, 제안하는 모델은 시각 인코더의 어텐션 메커니즘에 비전 파운데이션 모델로부터 스펙트럼 기반 특징을 증류(distillation)함으로써 객체 내부의 일관성을 향상시켜, 의미적으로 일관된 구성 요소들이 하나의 객체 마스크를 형성하도록 한다. 또한 텍스트 임베딩을 제로샷 객체 존재 가능도(zero-shot object presence likelihood)로 정교화하여, 이미지에 나타난 특정 객체들과의 정렬(alignment)을 정확히 보장한다. 객체 수준의 문맥 정보를 활용함으로써, 본 접근법은 다양한 데이터셋에 걸친 강한 일반화 성능과 함께 최첨단(state-of-the-art) 성과를 달성한다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드
Computer scienceVocabularyGraphArtificial intelligenceSegmentationNatural language processingContext (archaeology)Object (grammar)Theoretical computer scienceLinguistics
타입
article
IF / 인용수
- / 3
게재 연도
2025

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)

© 2026 RnDcircle. All Rights Reserved.