키의 분포를 색인 구조에 내장함으로써, 학습형 인덱스는 인덱스 크기를 최소화하고 조회 성능을 최대화할 수 있다. 그러나 현재의 학습형 인덱스가 직면한 문제 중 하나는 인덱스 구축 시간이 길다는 점이다. 기존의 학습형 인덱스는 전체 데이터셋을 완전히 순회해야 하므로, 전통적인 인덱스에 비해 실용성이 떨어진다. 본 논문은 학습형 인덱스를 실용적으로 만들기 위해 구축 시간의 효율성을 문제 삼는다. 구축 시간 효율적인 학습형 인덱스를 위한 우리의 접근은 샘플링 학습을 활용하는 것이다. 본 논문에서는 오차 경계를 만족하는 두 가지 샘플링 방식인 Sample EB-PLA와 Sample EB-Histogram을 제시한다. 샘플링이라는 개념은 단순하지만, 이를 실용적으로 만들기 위해 고려해야 할 사항들이 여러 가지 존재한다. 예를 들어 샘플링 간격, 오차 경계(오차 허용성), 인덱스 하이퍼파라미터는 서로 연관되어 있으며, 구축 시간, 인덱스 크기, 정확도 및 조회 지연 사이에 복잡한 트레이드오프를 형성한다. 여섯 개의 실제 데이터셋에 대한 광범위한 실험을 통해, 우리의 샘플링 방식은 인덱스 구축 시간을 한 자릿수(orders of magnitude) 수준으로 효율적으로 줄일 수 있음을 보인다. 결과는 샘플링이 구축 시간뿐 아니라 조회 성능 및 인덱스 크기를 포함하여 학습형 인덱스의 설계 공간을 확장함을 보여준다. 우리의 파레토 분석은 샘플링을 통해 학습형 인덱스를 전통적인 인덱스보다 더 효율적으로 구축할 수 있음을 시사한다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.