시각과 언어 표현을 정렬하는 일이 비자명하므로, 텍스트를 기반으로 관련 이미지를 검색하는 것은 어렵다. 최근 연구에서는 정렬에 대한 사전학습 지식을 활용하기 위해 CLIP과 같은 대규모 비전-언어 모델이 널리 사용된다. 그러나 우리의 관찰에 따르면 명사 쿼리에 비해 동사, 형용사, 부사 쿼리에서는 성능이 60.8% 감소한다. 예비 연구를 통해, 널리 사용되는 비전-언어 모델들에서 특정 품사에 대한 이미지-텍스트 정렬이 충분하지 않음을 확인하였다. 또한 명사가 비전-언어 모델의 텍스트-대-이미지 검색 결과에 높은 영향을 미친다는 점도 관찰하였다. 이를 바탕으로 본 논문은 쿼리 재작성 과정의 일부로서 명사 기반 쿼리를 생성하는 방법을 제안한다. 먼저, 대규모 언어 모델이 초기 쿼리와 관련된 명사를 추출하고, 비전-언어 모델에서의 품사 정렬에 가장 잘 부합하는 가상 쿼리를 생성한다. 그런 다음 해당 가상 쿼리가 원래 쿼리의 의도를 보존하는지 검증하고, 이를 반복적으로 재작성한다. 실험 결과, 본 방법은 텍스트-대-이미지 검색 성능을 유의미하게 향상시킬 수 있으며, 비전-언어 모델이 어휘 지식을 이해하는 방식을 부각한다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.