CABANA : Cluster-Aware Query Batching for Accelerating Billion-Scale ANNS With Intel AMX | 김대훈 교수 연구실 | 연세대학교 시스템반도체공학과

|김대훈 교수 연구실

홈

연구 영역

기본 정보

논문·특허

과제

구성원

Article|

인용수 0

·2025

CABANA : Cluster-Aware Query Batching for Accelerating Billion-Scale ANNS With Intel AMX

Minho Kim, Houxiang Ji, Jaeyoung Kang, Hwanjun Lee, Daehoon Kim, Nam Sung Kim

IF 1.4 (2025) IEEE Computer Architecture Letters

초록

검색 증강 생성(Retrieval-augmented generation, RAG) 시스템은 수십억 규모의 벡터 데이터베이스에서 관련 컨텍스트를 효율적으로 검색하기 위해 Approximate Nearest Neighbor Search(ANNS)를 점점 더 많이 활용하고 있다. IVF 기반 ANNS 프레임워크는 전반적으로 확장성이 우수하지만, 정밀 검색 단계는 특히 대량 쿼리 환경에서 GEMV 연산이 계산 집약적이기 때문에 병목으로 남아 있다. 이를 해결하기 위해, 우리는 CABANA를 제안한다. 이는 Intel Advanced Matrix Extensions(AMX)를 사용한 ANNS 가속 메커니즘을 위한 cluster-aware 쿼리 batching으로, 이러한 GEMV 연산을 고처리량 GEMM 연산으로 재구성한다. 동일한 클러스터를 대상으로 하는 쿼리를 집계함으로써, CABANA는 정밀 검색 동안 배치 연산을 가능하게 하여 계산 집약도와 메모리 접근의 규칙성을 유의미하게 향상시킨다. 수십억 규모 데이터셋에 대한 평가에서 CABANA는 기존의 SIMD 기반 구현을 능가하며, 최소한의 오버헤드로 최대 $32.6 \times$ 더 높은 쿼리 처리량을 달성하는 동시에 높은 리콜 성능을 유지한다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

Computer scienceScale (ratio)Cluster (spacecraft)Operating system

타입

Article

IF / 인용수

1.4 / 0

원문

https://doi.org/10.1109/lca.2025.3596970

게재 연도

2025