지시(지시어) 이미지 분할(referring image segmentation)은 자연어 표현으로 지시된 이미지에서 객체의 위치를 국소화하는 것을 목표로 한다. 대부분의 선행 연구는 분할 라벨을 포함한 대규모 데이터셋으로 지시 이미지 분할을 학습하지만, 이는 비용이 많이 든다. 본 연구에서는 손쉽게 이용 가능한 이미지-텍스트 쌍만을 사용하는, 약지도(weakly supervised) 학습 기반 지시 이미지 분할 방법을 제안한다. 먼저 이미지-텍스트 매칭을 위한 시각-언어 모델을 학습하고, Grad-CAM을 통해 시각적 중요도(saliency) 맵을 추출하여 각 단어에 대응되는 이미지 영역을 식별한다. 그러나 Grad-CAM에는 두 가지 주요 문제가 있음을 발견하였다. 첫째, 단어 간의 핵심 의미 관계를 고려하지 못한다. 우리는 단어 간의 관계를 intra-chunk 및 inter-chunk 일관성을 통해 모델링함으로써 이 문제를 해결한다. 둘째, Grad-CAM은 지시된 객체의 작은 영역만을 식별하여 재현율(recall)이 낮다. 따라서 우리는 Transformer의 self-attention과 비지도 객체 형태 prior를 이용하여 국소화 맵을 정제한다. 세 가지 인기 벤치마크(RefCOCO, RefCOCO+, G-Ref)에서, 본 방법은 최근의 비교 가능한 기법들보다 유의미하게 우수한 성능을 보인다. 또한 본 방법이 다양한 수준의 감독(supervision)에 적용 가능하며, 최근 방법들보다 더 나은 성능을 얻을 수 있음을 보여준다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.