질의 성능 예측(Query Performance Prediction, QPP)은 정답에 해당하는 관련성 판정에 접근하지 않고도 정보 검색(IR) 시스템의 효과성을 추정하는 것을 목표로 한다. 기존의 지도학습 기반 QPP 방법들은 대개 질의-문서 표현을 RR@10 또는 nDCG@10과 같은 목표 지표로 매핑하는 회귀(regression) 모델의 틀을 따른다. 그러나 이러한 접근법은 개념 변화(concept shift) 상황에서 성능이 저하되는 경우가 흔한데, 이는 질의-문서 쌍에 주어진 관련성의 분포가 학습 데이터셋과 시험 데이터셋 사이에서 달라지는 현상이다. 본 논문은 분류(classification) 기반의 새로운 프레임워크인 QPP-MLC(QPP Multi-Label Classification)를 제안하며, QPP를 다중 레이블 분류(multi-label classification) 과제로 정식화한다. QPP-MLC는 상위-k로 검색된 결과들 각각에 대해 문서의 관련성을 추정하고, 문서 수준의 관련성 예측을 집계하여 전체 질의 성능을 예측한다. 그 결과, QPP-MLC는 개념 변화에 대한 진단 도구를 제공함과 동시에, 분류 과제의 임계값(threshold) 수준을 조절함으로써 개념 변화 하에서의 보정 방법을 제공한다. MS MARCO 및 TREC DL 벤치마크에 대한 실험 결과, QPP-MLC는 강력한 예측 정확도를 달성하며 전통적인 회귀 기반 QPP 방법들보다 성능이 우수함을 보였다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.