Weakly Supervised Referring Image Segmentation with Intra-Chunk and Inter-Chunk Consistency | 이정범 교수 연구실 | 고려대학교 컴퓨터학과

|이정범 교수 연구실

홈

연구 영역

기본 정보

논문·특허

구성원

Article|

인용수 16

·2023

Weakly Supervised Referring Image Segmentation with Intra-Chunk and Inter-Chunk Consistency

Jungbeom Lee, Sungjin Lee, Jinseok Nam, Seunghak Yu, Jaeyoung Do, Tara Taghavi

초록

지시(지시어) 이미지 분할(referring image segmentation)은 자연어 표현으로 지시된 이미지에서 객체의 위치를 국소화하는 것을 목표로 한다. 대부분의 선행 연구는 분할 라벨을 포함한 대규모 데이터셋으로 지시 이미지 분할을 학습하지만, 이는 비용이 많이 든다. 본 연구에서는 손쉽게 이용 가능한 이미지-텍스트 쌍만을 사용하는, 약지도(weakly supervised) 학습 기반 지시 이미지 분할 방법을 제안한다. 먼저 이미지-텍스트 매칭을 위한 시각-언어 모델을 학습하고, Grad-CAM을 통해 시각적 중요도(saliency) 맵을 추출하여 각 단어에 대응되는 이미지 영역을 식별한다. 그러나 Grad-CAM에는 두 가지 주요 문제가 있음을 발견하였다. 첫째, 단어 간의 핵심 의미 관계를 고려하지 못한다. 우리는 단어 간의 관계를 intra-chunk 및 inter-chunk 일관성을 통해 모델링함으로써 이 문제를 해결한다. 둘째, Grad-CAM은 지시된 객체의 작은 영역만을 식별하여 재현율(recall)이 낮다. 따라서 우리는 Transformer의 self-attention과 비지도 객체 형태 prior를 이용하여 국소화 맵을 정제한다. 세 가지 인기 벤치마크(RefCOCO, RefCOCO+, G-Ref)에서, 본 방법은 최근의 비교 가능한 기법들보다 유의미하게 우수한 성능을 보인다. 또한 본 방법이 다양한 수준의 감독(supervision)에 적용 가능하며, 최근 방법들보다 더 나은 성능을 얻을 수 있음을 보여준다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

Computer scienceArtificial intelligenceSegmentationConsistency (knowledge bases)Object (grammar)Image segmentationPattern recognition (psychology)Text segmentationImage (mathematics)Natural language processing

타입

Article

IF / 인용수

- / 16

원문

https://doi.org/10.1109/iccv51070.2023.01999

게재 연도

2023