우수한 성능에도 불구하고, Dense Passage Retrieval(DPR) 모델은 해석 가능성의 부족이라는 한계를 지닌다. 본 연구에서는 Sparse Autoencoders(SAEs)를 활용하여 DPR 모델의 기존에 해석이 불가능했던 밀집 임베딩을 서로 구별되는 해석 가능한 잠재 개념들로 분해하는 새로운 해석 가능성 프레임워크를 제안한다. 우리는 각 잠재 개념에 대한 자연어 설명을 생성함으로써, DPR 모델의 밀집 임베딩과 질의-문서 간 유사도 점수에 대해 인간이 해석할 수 있도록 한다. 아울러 추출된 잠재 개념을 인덱싱 단위로 직접 활용하는 검색 프레임워크인 Concept-Level Sparse Retrieval(CL-SR)도 제안한다. CL-SR은 밀집 임베딩의 의미적 표현력을 희소 표현의 명확성 및 효율성과 효과적으로 결합한다. 우리는 CL-SR이 어휘 및 의미 불일치 상황에서도 견고한 성능을 유지하면서, 높은 인덱스 공간 및 계산 효율을 달성함을 보인다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.