Clustering-based Image-Text Graph Matching for Domain Generalization | 김은솔 교수 연구실 | 한양대학교 컴퓨터소프트웨어학부

김은솔 교수 연구실

홈

기본 정보

연구 분야

프로젝트

논문

구성원

preprint|

인용수 0

·2023

Clustering-based Image-Text Graph Matching for Domain Generalization

Nokyung Park, Daewon Chae, Jeongyong Shim, Sangpil Kim, Eun‐Sol Kim, Jinkyu Kim

arXiv (Cornell University)

초록

학습 영역-불변적 시각 표현을 학습하는 것은 보지 못한 대상 작업 도메인에 대해서도 잘 일반화할 수 있는 모델을 훈련하는 데 중요하다. 최근 연구들은 텍스트 기술이 높은 수준의 클래스-구분 정보를 포함하고 있으며, 이러한 보조적 의미 단서가 도메인 일반화 문제에서 효과적인 피벗 임베딩으로 활용될 수 있음을 보여준다. 그러나 기존 방법들은 피벗 임베딩을 전역 방식으로 사용한다(즉, 이미지 임베딩을 문장 수준의 텍스트 임베딩에 정렬)고, 이는 주어진 텍스트 기술의 의미 단서를 충분히 활용하지 못한다. 본 연구에서는 이미지 영역과 해당 텍스트 기술 간의 국소 정렬(local alignment)을 사용하여 도메인-불변 특징을 얻는 것을 제안한다. 이를 위해 먼저 이미지와 텍스트 입력을 그래프로 표현한다. 그 다음, 이들 그래프 내의 노드를 클러스터링하고, 그래프 기반 이미지 노드 특징을 텍스트 그래프의 노드들에 매칭한다. 이러한 매칭 과정은 전역 및 국소 모두에서 수행되어, 시각과 텍스트 간의 의미 하위 구조를 면밀하게 정렬한다. 우리는 CUB-DG 및 DomainBed와 같은 대규모 공개 데이터셋에서 실험을 수행하였으며, 본 모델은 이들 데이터셋에서 기존의 최신 성능과 동등하거나 더 나은 성능을 달성한다. 코드는 다음에서 제공된다: https://github.com/noparkee/Graph-Clustering-based-DG

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

Bridging (networking)Cluster analysisComputer scienceGraphMatching (statistics)Information retrievalImage (mathematics)Artificial intelligenceData miningPattern recognition (psychology)

타입

preprint

IF / 인용수

- / 0

원문

http://arxiv.org/abs/2310.02692

게재 연도

2023

프로젝트 공고 서비스 문의 자주 묻는 질문 이용약관 개인정보처리방침

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)