A Simple Baseline with Single-encoder for Referring Image Segmentation | 손진희 교수 연구실 | 포항공과대학교 인공지능대학원

손진희 교수 연구실

홈

기본 정보

연구 분야

프로젝트

논문

구성원

preprint|

인용수 1

·2024

A Simple Baseline with Single-encoder for Referring Image Segmentation

Seonghoon Yu, Ilchae Jung, Han, Byeongju, Taeoh Kim, Yunho Kim, Dongyoon Wee, Jeany Son

arXiv (Cornell University)

초록

참조 이미지 분할(Referring image segmentation, RIS)은 주어진 설명에 따라 객체를 분할하기 위해 시각 픽셀과 텍스트 단어 간의 촘촘한 비전-언어 상호작용을 필요로 한다. 그러나 RIS에서 흔히 채택되는 이중 인코더, 예컨대 Swin transformer와 BERT(단일 모달 인코더) 또는 CLIP(멀티모달 이중 인코더)는 사전학습 동안 촘촘한 멀티모달 상호작용이 결여되어, 픽셀 수준의 RIS 작업과의 간극을 초래한다. 이러한 간극을 메우기 위해 기존의 RIS 방법들은 종종 두 인코더를 상호작용시키는 멀티모달 융합 모듈에 의존하지만, 이 접근은 높은 계산 비용을 야기한다. 본 논문에서는 단일 인코더를 사용하는 새로운 RIS 방법을 제안한다. 즉 BEiT-3로, 모든 프레임워크 구성 요소에 걸친 공유 자기주의(self-attention)의 잠재력을 최대화한다. 이를 통해 입력부터 최종 예측까지 두 모달리티 간의 매끄러운 상호작용이 가능해지며, 세밀하게 정렬된 멀티모달 특징을 생성한다. 또한 경량이면서도 효과적인 디코더 모듈인 Shared FPN과 Shared Mask Decoder를 제안하며, 이는 본 모델의 높은 효율성에 기여한다. 단일 인코더를 사용하는 간단한 베이스라인은 최신 SoTA 방법들(이중 인코더 기반)과 비교하여 계산 효율성을 유지하면서 RIS 벤치마크 데이터셋에서 뛰어난 성능을 달성한다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

Baseline (sea)Simple (philosophy)EncoderComputer scienceArtificial intelligenceSegmentationComputer visionImage (mathematics)Pattern recognition (psychology)Political science

타입

preprint

IF / 인용수

- / 1

원문

http://arxiv.org/abs/2408.15521

게재 연도

2024

프로젝트 공고 서비스 문의 자주 묻는 질문 이용약관 개인정보처리방침

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)