생성 이미지 검색(Composed Image Retrieval, CIR)은 사용자의 검색 의도를 표현하기 위해 텍스트와 이미지를 결합하여 대상 이미지를 검색하는 작업이다. CIR의 핵심 요소는 참조 이미지를 사용자의 목적에 맞게 수정할 수 있는 다중 양식 쿼리를 구성하는 것이다. 기존 연구는 두 양식 간의 부분적 연결로 인해 수정이 어렵고, 부정 샘플 간의 유사성이 정렬 불일치를 유발한다는 문제에 직면해 있다. 제안된 모델은 두 양식 간의 영역 단위 상호작용을 통해 보존 및 수정 가중치를 학습하는 관계 결속(relation binding) 모듈을 도입함으로써 이러한 문제를 해결하고자 한다. 또한 후보 이미지 간의 유사성을 활용하는 계량 학습(metric learning)을 사용한다. 기존 모델과 비교할 때, 제안된 모델은 FashionIQ에서 1%p, Shoes에서 p의 성능 향상을 보인다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.