Decoding Dense Embeddings: Sparse Autoencoders for Interpreting and Discretizing Dense Retrieval | 고영중 교수 연구실 | 성균관대학교 소프트웨어학과

|고영중 교수 연구실

홈

연구 영역

기본 정보

논문·특허

과제

구성원

Preprint|

인용수 0

·2025

Decoding Dense Embeddings: Sparse Autoencoders for Interpreting and Discretizing Dense Retrieval

Seong-Wan Park, Taek-Lim Kim, Youngjoong Ko

ArXiv.org

초록

우수한 성능에도 불구하고, Dense Passage Retrieval(DPR) 모델은 해석 가능성의 부족이라는 한계를 지닌다. 본 연구에서는 Sparse Autoencoders(SAEs)를 활용하여 DPR 모델의 기존에 해석이 불가능했던 밀집 임베딩을 서로 구별되는 해석 가능한 잠재 개념들로 분해하는 새로운 해석 가능성 프레임워크를 제안한다. 우리는 각 잠재 개념에 대한 자연어 설명을 생성함으로써, DPR 모델의 밀집 임베딩과 질의-문서 간 유사도 점수에 대해 인간이 해석할 수 있도록 한다. 아울러 추출된 잠재 개념을 인덱싱 단위로 직접 활용하는 검색 프레임워크인 Concept-Level Sparse Retrieval(CL-SR)도 제안한다. CL-SR은 밀집 임베딩의 의미적 표현력을 희소 표현의 명확성 및 효율성과 효과적으로 결합한다. 우리는 CL-SR이 어휘 및 의미 불일치 상황에서도 견고한 성능을 유지하면서, 높은 인덱스 공간 및 계산 효율을 달성함을 보인다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

InterpretabilityVocabularyDecoding methodsPattern recognition (psychology)Search engine indexingSimilarity (geometry)Probabilistic latent semantic analysisTransparency (behavior)Sparse matrix

타입

Preprint

IF / 인용수

- / 0

원문

http://arxiv.org/abs/2506.00041

게재 연도

2025