황성재 교수 연구실
기본 정보
연구 분야
프로젝트
논문
구성원
article|
인용수 9
·2024
Complementary branch fusing class and semantic knowledge for robust weakly supervised semantic segmentation
Woojung Han, Seil Kang, Kyobin Choo, Seong Jae Hwang
IF 7.6 (2024) Pattern Recognition
초록

영상 수준 클래스 지식으로부터 유의미하게 정확한(pseudo) 마스크를 도출하여 분할에 활용하는 기법, 즉 영상 수준 약지도 의미 분할(image-level Weakly Supervised Semantic Segmentation, WSSS)은 여전히 어렵다. CNN을 사용하는 클래스 활성화 맵(Class Activation Maps, CAMs)은 사람의 얼굴만처럼 특정 클래스의 부분에 초점을 맞춤으로써 WSSS를 향상시키는 반면, 비전 트랜스포머(Vision Transformers, ViT)는 더 넓은 의미적 부분을 포착하지만 사람의 몸과 같은 클래스 전체에 대해, 개와 같은 인접한 물체를 포함한 완전한 클래스 특이 세부 정보를 종종 놓친다. 본 연구에서는 CNN으로부터의 클래스 지식과 ViT로부터의 의미론적 지식을 상호 보완적으로 제공하는 두 가지 서로 다른 아키텍처로 구성된 새로운 쌍(dual) 분기 프레임워크인 Co mplementary Bra nch(CoBra)를 제안한다. 구체적으로, CNN 분기에는 클래스 인지 투영(Class-Aware Projection, CAP)을, ViT 분기에는 의미 인지 투영(Semantic-Aware Projection, SAP)을 학습하고, 이들의 통찰을 결합하여 새로운 패치 수준 감독을 가능하게 하며, 클래스와 의미 정보를 통합하는 효과적인 유사 마스크를 생성한다. 광범위한 실험을 통해 각 분기가 서로 어떻게 보완하는지를 정성적 및 정량적으로 면밀히 분석하였고, 유의미한 결과를 보였다. 프로젝트 페이지와 코드는 다음에 제공된다: https://micv-yonsei.github.io/cobra2024/ . • 본 연구는 Complementary Branch Framework인 CoBra를 제안하며, CNN과 ViT의 강점을 활용하고 최대화하는 동시에 서로의 한계를 보완한다. • 각각 클래스 정보와 의미 정보를 포착하기 위해 Class-Aware Projection(CAP)과 Semantic-Aware Pro- jection(SAP)을 사용하고, 대조 학습(contrastive learning)을 통해 CNN 및 ViT 분기 모두에 대해 향상되고 보완적인 지침을 제공한다. • 본 모델의 영상 수준 WSSS 성능을 PASCAL VOC 2012 데이터셋 및 MS-COCO 2014에서 평가하였으며, seed, mask 및 분할 결과 전반에서 유의미한 성과를 보인다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드
SegmentationArtificial intelligenceComputer scienceClass (philosophy)Pattern recognition (psychology)Natural language processing
타입
article
IF / 인용수
7.6 / 9
게재 연도
2024

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)

© 2026 RnDcircle. All Rights Reserved.