영상 수준 클래스 지식으로부터 유의미하게 정확한(pseudo) 마스크를 도출하여 분할에 활용하는 기법, 즉 영상 수준 약지도 의미 분할(image-level Weakly Supervised Semantic Segmentation, WSSS)은 여전히 어렵다. CNN을 사용하는 클래스 활성화 맵(Class Activation Maps, CAMs)은 사람의 얼굴만처럼 특정 클래스의 부분에 초점을 맞춤으로써 WSSS를 향상시키는 반면, 비전 트랜스포머(Vision Transformers, ViT)는 더 넓은 의미적 부분을 포착하지만 사람의 몸과 같은 클래스 전체에 대해, 개와 같은 인접한 물체를 포함한 완전한 클래스 특이 세부 정보를 종종 놓친다. 본 연구에서는 CNN으로부터의 클래스 지식과 ViT로부터의 의미론적 지식을 상호 보완적으로 제공하는 두 가지 서로 다른 아키텍처로 구성된 새로운 쌍(dual) 분기 프레임워크인 Co mplementary Bra nch(CoBra)를 제안한다. 구체적으로, CNN 분기에는 클래스 인지 투영(Class-Aware Projection, CAP)을, ViT 분기에는 의미 인지 투영(Semantic-Aware Projection, SAP)을 학습하고, 이들의 통찰을 결합하여 새로운 패치 수준 감독을 가능하게 하며, 클래스와 의미 정보를 통합하는 효과적인 유사 마스크를 생성한다. 광범위한 실험을 통해 각 분기가 서로 어떻게 보완하는지를 정성적 및 정량적으로 면밀히 분석하였고, 유의미한 결과를 보였다. 프로젝트 페이지와 코드는 다음에 제공된다: https://micv-yonsei.github.io/cobra2024/ . • 본 연구는 Complementary Branch Framework인 CoBra를 제안하며, CNN과 ViT의 강점을 활용하고 최대화하는 동시에 서로의 한계를 보완한다. • 각각 클래스 정보와 의미 정보를 포착하기 위해 Class-Aware Projection(CAP)과 Semantic-Aware Pro- jection(SAP)을 사용하고, 대조 학습(contrastive learning)을 통해 CNN 및 ViT 분기 모두에 대해 향상되고 보완적인 지침을 제공한다. • 본 모델의 영상 수준 WSSS 성능을 PASCAL VOC 2012 데이터셋 및 MS-COCO 2014에서 평가하였으며, seed, mask 및 분할 결과 전반에서 유의미한 성과를 보인다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.