옥정슬 교수 연구실
기본 정보
연구 분야
프로젝트
논문
구성원
article|
인용수 0
·2025
MiLQ: Benchmarking IR Models for Bilingual Web Search with Mixed Language Queries
Jonghwi Kim, Deokhyung Kang, Seonjeong Hwang, Yunsu Kim, Jungseul Ok, Gary Lee
초록

이중언어 사용자는 웹 검색에서 혼합 언어 쿼리를 자주 사용하지만, 이들을 대상으로 한 정보 검색(Information Retrieval, IR) 연구는 여전히 드문 실정이다. 이를 해결하기 위해 우리는 MiLQ(Mixed-Language Query test set)를 소개한다. MiLQ는 혼합 언어 쿼리에 대한 최초의 공개 벤치마크로, 현실적이며 상대적으로 선호되는 것으로 자격을 갖추었다. 실험 결과, 다국어 IR 모델은 MiLQ에서 중간 정도의 성능을 보이며, 모국어, 영어, 혼합 언어 쿼리 전반에서 일관적이지 않은 결과를 나타냈다. 이는 또한 코드 스위칭(code-switched) 훈련 데이터가 이러한 쿼리를 처리하는 강건한 IR 모델의 잠재력을 시사한다. 한편, 쿼리에서 의도적으로 영어를 혼합하는 것은 이중언어 사용자가 영어 문서를 검색할 때 효과적인 전략임이 입증되었으며, 우리의 분석은 이러한 효과가 모국어 쿼리와 비교하여 향상된 토큰 매칭(token matching) 때문이라고 설명한다.1* 본 연구는 저자가 aiXplain에 재직 중이던 시기에 수행되었다.1 이 연구의 코드와 데이터는 다음에서 제공된다: https://github.com/jonghwi-kim/milq.2 본 연구에서 코드스위칭, 혼합 언어, 코덤믹싱(codemixing)은 동의어로 사용된다.Was sind die Vorteile und Nachteile einer einheitlichen europaischen Whrung?Was sind die Advantages und Disadvantages einer single European Currency?What are the advantages and disadvantages of a single European currency?

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드
BenchmarkingQuery languageQuality (philosophy)Semantic WebInformation systemNatural language
타입
article
IF / 인용수
- / 0
게재 연도
2025

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)

© 2026 RnDcircle. All Rights Reserved.