학습 영역-불변적 시각 표현을 학습하는 것은 보지 못한 대상 작업 도메인에 대해서도 잘 일반화할 수 있는 모델을 훈련하는 데 중요하다. 최근 연구들은 텍스트 기술이 높은 수준의 클래스-구분 정보를 포함하고 있으며, 이러한 보조적 의미 단서가 도메인 일반화 문제에서 효과적인 피벗 임베딩으로 활용될 수 있음을 보여준다. 그러나 기존 방법들은 피벗 임베딩을 전역 방식으로 사용한다(즉, 이미지 임베딩을 문장 수준의 텍스트 임베딩에 정렬)고, 이는 주어진 텍스트 기술의 의미 단서를 충분히 활용하지 못한다. 본 연구에서는 이미지 영역과 해당 텍스트 기술 간의 국소 정렬(local alignment)을 사용하여 도메인-불변 특징을 얻는 것을 제안한다. 이를 위해 먼저 이미지와 텍스트 입력을 그래프로 표현한다. 그 다음, 이들 그래프 내의 노드를 클러스터링하고, 그래프 기반 이미지 노드 특징을 텍스트 그래프의 노드들에 매칭한다. 이러한 매칭 과정은 전역 및 국소 모두에서 수행되어, 시각과 텍스트 간의 의미 하위 구조를 면밀하게 정렬한다. 우리는 CUB-DG 및 DomainBed와 같은 대규모 공개 데이터셋에서 실험을 수행하였으며, 본 모델은 이들 데이터셋에서 기존의 최신 성능과 동등하거나 더 나은 성능을 달성한다. 코드는 다음에서 제공된다: https://github.com/noparkee/Graph-Clustering-based-DG
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.