DC-SAM: In-Context Segment Anything in Images and Videos via Dual Consistency | 양밍쉬안 교수 연구실 | 연세대학교 인공지능학과

|양밍쉬안 교수 연구실

홈

연구 영역

기본 정보

논문·특허

구성원

Preprint|

인용수 0

·2025

DC-SAM: In-Context Segment Anything in Images and Videos via Dual Consistency

Mingyao Qi, Pengfei Zhu, Xiangtai Li, Xiaoyang Bi, Lu Qi, Huadóng Ma, Ming–Hsuan Yang

ArXiv.org

초록

단일 라벨 예시가 주어졌을 때, 맥락 내 세그멘테이션(in-context segmentation)은 해당하는 객체를 분할하는 것을 목표로 한다. 이러한 설정은 소수 샷 학습(few-shot learning)에서의 원샷 세그멘테이션(one-shot segmentation)으로 알려져 있으며, 분할 모델의 일반화 능력을 탐구하는 데 목적이 있고, 장면 이해(scene understanding) 및 이미지/비디오 편집(image/video editing)을 포함한 다양한 비전 과제에 적용되어 왔다. 최근 Segment Anything 모델(SAM) 계열이 대화형(interactive) 세그멘테이션에서 최첨단 성과를 달성했음에도 불구하고, 이러한 접근법은 맥락 내 세그멘테이션에 직접 적용되기 어렵다. 본 연구에서는 프롬프트 튜닝(prompt-tuning) 기반의 Dual Consistency SAM (DC-SAM) 방법을 제안하여, 이미지와 비디오 모두에 대한 맥락 내 세그멘테이션을 위해 SAM과 SAM2를 적응시킨다. 핵심 아이디어는 고품질의 시각적 프롬프트를 제공함으로써 세그멘테이션을 위한 SAM의 프롬프트 인코더(prompt encoder)에서의 특징을 향상시키는 것이다. 마스크를 사전 생성할 때, 프롬프트 인코더에 더 잘 정렬되도록 SAM의 특징을 결합(fuse)한다. 다음으로, 결합된 특징과 초기 시각적 프롬프트에 대해 순환 일관성(cycle-consistent)을 갖는 교차 주의(cross-attention)를 설계한다. 이어서, 프롬프트 인코더에서 판별적인 양성 및 음성 프롬프트를 사용하여 이중 분기(dual-branch) 설계를 제공한다. 또한, 제안된 이중 일관성 방법을 마스크 튜브(mask tube)에 적용하기 위해 간단한 마스크-튜브 학습 전략을 설계한다. 제안된 DC-SAM은 주로 이미지용으로 설계되었지만, SAM2의 지원을 통해 비디오 도메인에도 매끄럽게 확장할 수 있다. 비디오 도메인에서의 맥락 내 세그멘테이션이 부재하므로, 우리는 기존 비디오 세그멘테이션 데이터셋을 바탕으로 수작업으로 선별하고 최초의 벤치마크를 구축하였으며, 이를 In-Context Video Object Segmentation (IC-VOS)라고 명명하여 모델의 맥락 내 능력을 보다 잘 평가할 수 있도록 한다. 광범위한 실험 결과, 본 방법은 COCO-20i에서 55.5(+1.4) mIoU, PASCAL-5i에서 73.0(+1.1) mIoU, 제안된 IC-VOS 벤치마크에서 J&F 71.52 점을 달성함을 보여준다. 소스 코드와 벤치마크는 https://github.com/zaplm/DC-SAM 에서 제공된다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

SegmentationDiscriminative modelConsistency (knowledge bases)Scale-space segmentationImage segmentationEncoderBenchmark (surveying)Dual (grammatical number)

타입

Preprint

IF / 인용수

- / 0

원문

http://arxiv.org/abs/2504.12080

게재 연도

2025