Bridging the Lexical Gap: Generative Text-to-Image Retrieval for Parts-of-Speech Imbalance in Vision-Language Models | 박재휘 교수 연구실 | 서울시립대학교 통계학과

|박재휘 교수 연구실

홈

연구 영역

기본 정보

논문·특허

과제

구성원

Article|

인용수 1

·2024

Bridging the Lexical Gap: Generative Text-to-Image Retrieval for Parts-of-Speech Imbalance in Vision-Language Models

Hyesu Hwang, Daeun Kim, Jaehui Park, Yongjin Kwon

초록

시각과 언어 표현을 정렬하는 일이 비자명하므로, 텍스트를 기반으로 관련 이미지를 검색하는 것은 어렵다. 최근 연구에서는 정렬에 대한 사전학습 지식을 활용하기 위해 CLIP과 같은 대규모 비전-언어 모델이 널리 사용된다. 그러나 우리의 관찰에 따르면 명사 쿼리에 비해 동사, 형용사, 부사 쿼리에서는 성능이 60.8% 감소한다. 예비 연구를 통해, 널리 사용되는 비전-언어 모델들에서 특정 품사에 대한 이미지-텍스트 정렬이 충분하지 않음을 확인하였다. 또한 명사가 비전-언어 모델의 텍스트-대-이미지 검색 결과에 높은 영향을 미친다는 점도 관찰하였다. 이를 바탕으로 본 논문은 쿼리 재작성 과정의 일부로서 명사 기반 쿼리를 생성하는 방법을 제안한다. 먼저, 대규모 언어 모델이 초기 쿼리와 관련된 명사를 추출하고, 비전-언어 모델에서의 품사 정렬에 가장 잘 부합하는 가상 쿼리를 생성한다. 그런 다음 해당 가상 쿼리가 원래 쿼리의 의도를 보존하는지 검증하고, 이를 반복적으로 재작성한다. 실험 결과, 본 방법은 텍스트-대-이미지 검색 성능을 유의미하게 향상시킬 수 있으며, 비전-언어 모델이 어휘 지식을 이해하는 방식을 부각한다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

Bridging (networking)Computer scienceGenerative grammarNatural language processingArtificial intelligenceGenerative modelSpeech recognition

타입

Article

IF / 인용수

- / 1

원문

https://doi.org/10.1145/3689091.3690089

게재 연도

2024