윤수식 교수 연구실
기본 정보
연구 분야
프로젝트
논문
구성원
article|
인용수 0
·2026
Improving Scientific Document Retrieval with Academic Concept Index
Jeyun Lee, Junhyoung Lee, Wonbin Kweon, B. Jin, Yu Zhang, Susik Yoon, Dongha Lee, Hwanjo Yu, Jiawei Han, SeongKu Kang
ArXiv.org
초록

일반 도메인 검색기를 과학 분야에 적용하는 일은 대규모 도메인 특화 관련성 주석의 부족과 어휘 및 정보 요구의 상당한 불일치로 인해 어렵다. 최근의 접근법은 대규모 언어 모델(LLM)을 활용하는 두 가지 독립적 방향을 통해 이러한 문제를 해결한다: (1) 미세조정을 위한 합성 쿼리 생성, 그리고 (2) 관련성 매칭을 지원하기 위한 보조 컨텍스트 생성이다. 그러나 두 방향 모두 과학 문서에 내재된 다양한 학술 개념들을 간과하여, 종종 중복되거나 개념적으로 좁은 쿼리와 컨텍스트를 생성한다. 이러한 한계를 해결하기 위해, 논문에서 핵심 개념을 추출하고 학술 분류체계(택소노미)가 안내하는 방식으로 이를 조직하는 학술 개념 인덱스를 제안한다. 이 구조화된 인덱스는 두 방향 모두를 개선하기 위한 기반을 제공한다. 첫째, 개념 커버리지 기반 생성(concept coverage-based generation, CCQGen)으로 합성 쿼리 생성을 향상시킨다. CCQGen은 아직 커버되지 않은 개념들에 따라 LLM을 적응적으로 조건화하여, 더 넓은 개념 커버리지를 갖는 상보적 쿼리를 생성한다. 둘째, 개념 중심 보조 컨텍스트(concept-focused auxiliary contexts, CCExpand)로 컨텍스트 증강을 강화한다. CCExpand는 개념 인지형 CCQGen 쿼리에 대한 간결한 응답 역할을 하는 문서 스니펫들의 집합을 활용한다. 광범위한 실험 결과, 학술 개념 인덱스를 쿼리 생성과 컨텍스트 증강 두 과정에 모두 통합할 경우 더 높은 품질의 쿼리, 더 나은 개념적 정합성, 그리고 향상된 검색 성능이 달성됨을 보여준다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드
Relevance (law)Leverage (statistics)VocabularyContext (archaeology)Set (abstract data type)Index (typography)Key (lock)Document retrieval
타입
article
IF / 인용수
- / 0
게재 연도
2026

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)

© 2026 RnDcircle. All Rights Reserved.