약지도 학습 기반 의미 분할(WSSS) 접근법은 일반적으로 초기 시드 생성에 클래스 활성화 맵(CAM)에 의존하나, 영상-수준 라벨에 대한 제한된 감독으로 인해 전역적 문맥을 충분히 포착하지 못하는 경우가 많다. 이러한 문제를 해결하기 위해, 우리는 텍스트 임베딩을 활용하여 서로 다른 수준의 세분화 정도에서 대상에 대한 포괄적 이해와 정밀한 위치 파악을 향상시키는 Dense Alignment Learning Network인 DALNet을 제안한다. 우리의 핵심 아이디어는 이중 수준 정렬 전략을 사용하는 것이다. (1) 클래스 토큰과 해당 텍스트 임베딩 간의 유사도를 최대화하는 한편 배경 임베딩과의 유사도는 최소화하여 전역 의미를 포착하는 전역 암묵적 정렬(Global Implicit Alignment, GIA), 그리고 (2) 패치 토큰으로부터의 공간 정보를 활용하여 대상 위치 파악을 개선하는 국소 명시적 정렬(Local Explicit Alignment, LEA)이다. 또한, 영상과 텍스트 양식 간의 전경 특징을 정렬하되 배경과는 분리하는 교차 대조 학습(cross-contrastive learning) 접근법을 제안하여, 누락된 영역에서의 활성화를 유도하고 주의를 분산시키는 요소를 억제한다. PASCAL VOC 및 MS COCO 데이터셋에서의 광범위한 실험을 통해, DALNet이 최신 WSSS 방법들보다 유의미하게 우수함을 입증한다. 특히 본 접근법은 단일 단계 방법(single-stage method)으로서 보다 효율적인 종단 간(end-to-end) 처리를 가능하게 한다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.