이중언어 사용자는 웹 검색에서 혼합 언어 쿼리를 자주 사용하지만, 이들을 대상으로 한 정보 검색(Information Retrieval, IR) 연구는 여전히 드문 실정이다. 이를 해결하기 위해 우리는 MiLQ(Mixed-Language Query test set)를 소개한다. MiLQ는 혼합 언어 쿼리에 대한 최초의 공개 벤치마크로, 현실적이며 상대적으로 선호되는 것으로 자격을 갖추었다. 실험 결과, 다국어 IR 모델은 MiLQ에서 중간 정도의 성능을 보이며, 모국어, 영어, 혼합 언어 쿼리 전반에서 일관적이지 않은 결과를 나타냈다. 이는 또한 코드 스위칭(code-switched) 훈련 데이터가 이러한 쿼리를 처리하는 강건한 IR 모델의 잠재력을 시사한다. 한편, 쿼리에서 의도적으로 영어를 혼합하는 것은 이중언어 사용자가 영어 문서를 검색할 때 효과적인 전략임이 입증되었으며, 우리의 분석은 이러한 효과가 모국어 쿼리와 비교하여 향상된 토큰 매칭(token matching) 때문이라고 설명한다.1* 본 연구는 저자가 aiXplain에 재직 중이던 시기에 수행되었다.1 이 연구의 코드와 데이터는 다음에서 제공된다: https://github.com/jonghwi-kim/milq.2 본 연구에서 코드스위칭, 혼합 언어, 코덤믹싱(codemixing)은 동의어로 사용된다.Was sind die Vorteile und Nachteile einer einheitlichen europaischen Whrung?Was sind die Advantages und Disadvantages einer single European Currency?What are the advantages and disadvantages of a single European currency?
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.