MiLQ: Benchmarking IR Models for Bilingual Web Search with Mixed Language Queries | 옥정슬 교수 연구실 | 포항공과대학교 인공지능대학원

옥정슬 교수 연구실

홈

기본 정보

연구 분야

프로젝트

논문

구성원

preprint|

인용수 0

·2025

MiLQ: Benchmarking IR Models for Bilingual Web Search with Mixed Language Queries

Jonghwi Kim, Deokhyung Kang, Seonjeong Hwang, Yunsu Kim, Jungseul Ok, Gary Lee

ArXiv.org

초록

이중언어 화자들이 웹 검색에서 혼합 언어 쿼리를 빈번히 사용하는에도 불구하고, 이들을 대상으로 한 정보검색(Information Retrieval, IR) 연구는 여전히 드문 실정이다. 이를 해결하기 위해 MiLQ, Mixed-Language Query 테스트 세트를 제안한다. 이는 혼합 언어 쿼리에 대한 최초의 공개 벤치마크로서, 현실적이며 상대적으로 선호되는 것으로 자격을 갖추었다. 실험 결과, 다국어 IR 모델은 MiLQ에서 중간 정도의 성능을 보였으며, 모국어·영어·혼합언어 쿼리 간에는 일관되지 않은 성능 차이를 보였다. 또한 이는 코드 스위칭(code-switched) 훈련 데이터가 이러한 쿼리를 처리하는 강건한 IR 모델을 위한 잠재력을 지님을 시사한다. 한편, 쿼리에서 의도적으로 영어를 혼합하는 것은 이중언어 화자들이 영어 문서를 검색할 때 효과적인 전략임이 입증되었으며, 본 분석은 이를 모국어 쿼리에 비해 향상된 토큰 매칭(token matching)으로 설명한다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

Benchmark (surveying)Matching (statistics)BenchmarkingTest (biology)Security tokenQuery expansionLanguage modelCross-language information retrieval

타입

preprint

IF / 인용수

- / 0

원문

http://arxiv.org/abs/2505.16631

게재 연도

2025

프로젝트 공고 서비스 문의 자주 묻는 질문 이용약관 개인정보처리방침

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)