DIAL: Dense Image-text ALignment for Weakly Supervised Semantic Segmentation | 이은주 교수 연구실 | 한양대학교 스마트융합공학부

이은주 교수 연구실

홈

기본 정보

연구 분야

논문

구성원

preprint|

인용수 1

·2024

DIAL: Dense Image-text ALignment for Weakly Supervised Semantic Segmentation

Soojin Jang, Jungmin Yun, Junehyoung Kwon, Eunju Lee, Youngbin Kim

arXiv (Cornell University)

초록

약지도 학습 기반 의미 분할(WSSS) 접근법은 일반적으로 초기 시드 생성에 클래스 활성화 맵(CAM)에 의존하나, 영상-수준 라벨에 대한 제한된 감독으로 인해 전역적 문맥을 충분히 포착하지 못하는 경우가 많다. 이러한 문제를 해결하기 위해, 우리는 텍스트 임베딩을 활용하여 서로 다른 수준의 세분화 정도에서 대상에 대한 포괄적 이해와 정밀한 위치 파악을 향상시키는 Dense Alignment Learning Network인 DALNet을 제안한다. 우리의 핵심 아이디어는 이중 수준 정렬 전략을 사용하는 것이다. (1) 클래스 토큰과 해당 텍스트 임베딩 간의 유사도를 최대화하는 한편 배경 임베딩과의 유사도는 최소화하여 전역 의미를 포착하는 전역 암묵적 정렬(Global Implicit Alignment, GIA), 그리고 (2) 패치 토큰으로부터의 공간 정보를 활용하여 대상 위치 파악을 개선하는 국소 명시적 정렬(Local Explicit Alignment, LEA)이다. 또한, 영상과 텍스트 양식 간의 전경 특징을 정렬하되 배경과는 분리하는 교차 대조 학습(cross-contrastive learning) 접근법을 제안하여, 누락된 영역에서의 활성화를 유도하고 주의를 분산시키는 요소를 억제한다. PASCAL VOC 및 MS COCO 데이터셋에서의 광범위한 실험을 통해, DALNet이 최신 WSSS 방법들보다 유의미하게 우수함을 입증한다. 특히 본 접근법은 단일 단계 방법(single-stage method)으로서 보다 효율적인 종단 간(end-to-end) 처리를 가능하게 한다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

Artificial intelligenceSegmentationComputer scienceNatural language processingImage (mathematics)Pattern recognition (psychology)Computer vision

타입

preprint

IF / 인용수

- / 1

원문

http://arxiv.org/abs/2409.15801

게재 연도

2024

프로젝트 공고 서비스 문의 자주 묻는 질문 이용약관 개인정보처리방침

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)