단일 라벨 예시가 주어졌을 때, 맥락 내 세그멘테이션(in-context segmentation)은 해당하는 객체를 분할하는 것을 목표로 한다. 이러한 설정은 소수 샷 학습(few-shot learning)에서의 원샷 세그멘테이션(one-shot segmentation)으로 알려져 있으며, 분할 모델의 일반화 능력을 탐구하는 데 목적이 있고, 장면 이해(scene understanding) 및 이미지/비디오 편집(image/video editing)을 포함한 다양한 비전 과제에 적용되어 왔다. 최근 Segment Anything 모델(SAM) 계열이 대화형(interactive) 세그멘테이션에서 최첨단 성과를 달성했음에도 불구하고, 이러한 접근법은 맥락 내 세그멘테이션에 직접 적용되기 어렵다. 본 연구에서는 프롬프트 튜닝(prompt-tuning) 기반의 Dual Consistency SAM (DC-SAM) 방법을 제안하여, 이미지와 비디오 모두에 대한 맥락 내 세그멘테이션을 위해 SAM과 SAM2를 적응시킨다. 핵심 아이디어는 고품질의 시각적 프롬프트를 제공함으로써 세그멘테이션을 위한 SAM의 프롬프트 인코더(prompt encoder)에서의 특징을 향상시키는 것이다. 마스크를 사전 생성할 때, 프롬프트 인코더에 더 잘 정렬되도록 SAM의 특징을 결합(fuse)한다. 다음으로, 결합된 특징과 초기 시각적 프롬프트에 대해 순환 일관성(cycle-consistent)을 갖는 교차 주의(cross-attention)를 설계한다. 이어서, 프롬프트 인코더에서 판별적인 양성 및 음성 프롬프트를 사용하여 이중 분기(dual-branch) 설계를 제공한다. 또한, 제안된 이중 일관성 방법을 마스크 튜브(mask tube)에 적용하기 위해 간단한 마스크-튜브 학습 전략을 설계한다. 제안된 DC-SAM은 주로 이미지용으로 설계되었지만, SAM2의 지원을 통해 비디오 도메인에도 매끄럽게 확장할 수 있다. 비디오 도메인에서의 맥락 내 세그멘테이션이 부재하므로, 우리는 기존 비디오 세그멘테이션 데이터셋을 바탕으로 수작업으로 선별하고 최초의 벤치마크를 구축하였으며, 이를 In-Context Video Object Segmentation (IC-VOS)라고 명명하여 모델의 맥락 내 능력을 보다 잘 평가할 수 있도록 한다. 광범위한 실험 결과, 본 방법은 COCO-20i에서 55.5(+1.4) mIoU, PASCAL-5i에서 73.0(+1.1) mIoU, 제안된 IC-VOS 벤치마크에서 J&F 71.52 점을 달성함을 보여준다. 소스 코드와 벤치마크는 https://github.com/zaplm/DC-SAM 에서 제공된다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.