지시 이미지 분할(Referring Image Segmentation, RIS)은 텍스트 설명을 바탕으로 이미지 속의 객체를 식별해야 한다. 우리는 기존 방법들이 외형(appearance) 기반 질의에 비해 동작 관련 질의에서 유의하게 성능이 저하됨을 관찰한다. 이를 해결하기 위해, 첫째로 우리는 추가적인 주석 없이도 원래 캡션에서 동작 중심 표현(motion-centric phrases)을 추출하는 효율적인 데이터 증강 기법을 처음으로 제안하여, 모델이 더 많은 동작 표현에 노출되도록 한다. 둘째로, 동일한 객체는 맥락에 따라 서로 다르게 기술될 수 있으므로, 단일 양식(unimodal) 표현이 아니라 결합된 이미지-텍스트 임베딩(image-text embeddings)에서 수행되는 다중모달 방사 대조 학습(Multimodal Radial Contrastive Learning, MRaCL)을 제안한다. 포괄적인 평가를 위해 동작 중심 질의에 초점을 둔 새로운 테스트 분할(test split)을 도입하고, 객체가 주로 행위(action)에 의해 구분되는 새로운 벤치마크인 M-Bench를 제안한다. 광범위한 실험 결과, 본 방법은 여러 RIS 모델에서 동작 중심 질의에 대한 성능을 실질적으로 향상시키면서도 외형 기반 기술(description)에서는 경쟁력 있는 결과를 유지함을 보여준다. 코드는 https://github.com/snuviplab/MRaCL 에서 제공된다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.