최종무 교수 연구실
기본 정보
연구 분야
프로젝트
논문
구성원
article|
·
인용수 4
·2024
Can Learned Indexes be Built Efficiently? A Deep Dive into Sampling Trade-offs
Minguk Choi, Seehwan Yoo, Jongmoo Choi
Proceedings of the ACM on Management of Data
초록

키의 분포를 색인 구조에 내장함으로써, 학습형 인덱스는 인덱스 크기를 최소화하고 조회 성능을 최대화할 수 있다. 그러나 현재의 학습형 인덱스가 직면한 문제 중 하나는 인덱스 구축 시간이 길다는 점이다. 기존의 학습형 인덱스는 전체 데이터셋을 완전히 순회해야 하므로, 전통적인 인덱스에 비해 실용성이 떨어진다. 본 논문은 학습형 인덱스를 실용적으로 만들기 위해 구축 시간의 효율성을 문제 삼는다. 구축 시간 효율적인 학습형 인덱스를 위한 우리의 접근은 샘플링 학습을 활용하는 것이다. 본 논문에서는 오차 경계를 만족하는 두 가지 샘플링 방식인 Sample EB-PLA와 Sample EB-Histogram을 제시한다. 샘플링이라는 개념은 단순하지만, 이를 실용적으로 만들기 위해 고려해야 할 사항들이 여러 가지 존재한다. 예를 들어 샘플링 간격, 오차 경계(오차 허용성), 인덱스 하이퍼파라미터는 서로 연관되어 있으며, 구축 시간, 인덱스 크기, 정확도 및 조회 지연 사이에 복잡한 트레이드오프를 형성한다. 여섯 개의 실제 데이터셋에 대한 광범위한 실험을 통해, 우리의 샘플링 방식은 인덱스 구축 시간을 한 자릿수(orders of magnitude) 수준으로 효율적으로 줄일 수 있음을 보인다. 결과는 샘플링이 구축 시간뿐 아니라 조회 성능 및 인덱스 크기를 포함하여 학습형 인덱스의 설계 공간을 확장함을 보여준다. 우리의 파레토 분석은 샘플링을 통해 학습형 인덱스를 전통적인 인덱스보다 더 효율적으로 구축할 수 있음을 시사한다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드
Computer scienceIndex (typography)Tree traversalSampling (signal processing)Search engine indexingEmbeddingData miningAlgorithmArtificial intelligence
타입
article
IF / 인용수
- / 4
게재 연도
2024

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)

© 2026 RnDcircle. All Rights Reserved.