참조 이미지 분할(Referring image segmentation, RIS)은 주어진 설명에 따라 객체를 분할하기 위해 시각 픽셀과 텍스트 단어 간의 촘촘한 비전-언어 상호작용을 필요로 한다. 그러나 RIS에서 흔히 채택되는 이중 인코더, 예컨대 Swin transformer와 BERT(단일 모달 인코더) 또는 CLIP(멀티모달 이중 인코더)는 사전학습 동안 촘촘한 멀티모달 상호작용이 결여되어, 픽셀 수준의 RIS 작업과의 간극을 초래한다. 이러한 간극을 메우기 위해 기존의 RIS 방법들은 종종 두 인코더를 상호작용시키는 멀티모달 융합 모듈에 의존하지만, 이 접근은 높은 계산 비용을 야기한다. 본 논문에서는 단일 인코더를 사용하는 새로운 RIS 방법을 제안한다. 즉 BEiT-3로, 모든 프레임워크 구성 요소에 걸친 공유 자기주의(self-attention)의 잠재력을 최대화한다. 이를 통해 입력부터 최종 예측까지 두 모달리티 간의 매끄러운 상호작용이 가능해지며, 세밀하게 정렬된 멀티모달 특징을 생성한다. 또한 경량이면서도 효과적인 디코더 모듈인 Shared FPN과 Shared Mask Decoder를 제안하며, 이는 본 모델의 높은 효율성에 기여한다. 단일 인코더를 사용하는 간단한 베이스라인은 최신 SoTA 방법들(이중 인코더 기반)과 비교하여 계산 효율성을 유지하면서 RIS 벤치마크 데이터셋에서 뛰어난 성능을 달성한다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.