검색 증강 생성(Retrieval-augmented generation, RAG) 시스템은 수십억 규모의 벡터 데이터베이스에서 관련 컨텍스트를 효율적으로 검색하기 위해 Approximate Nearest Neighbor Search(ANNS)를 점점 더 많이 활용하고 있다. IVF 기반 ANNS 프레임워크는 전반적으로 확장성이 우수하지만, 정밀 검색 단계는 특히 대량 쿼리 환경에서 GEMV 연산이 계산 집약적이기 때문에 병목으로 남아 있다. 이를 해결하기 위해, 우리는 CABANA를 제안한다. 이는 Intel Advanced Matrix Extensions(AMX)를 사용한 ANNS 가속 메커니즘을 위한 cluster-aware 쿼리 batching으로, 이러한 GEMV 연산을 고처리량 GEMM 연산으로 재구성한다. 동일한 클러스터를 대상으로 하는 쿼리를 집계함으로써, CABANA는 정밀 검색 동안 배치 연산을 가능하게 하여 계산 집약도와 메모리 접근의 규칙성을 유의미하게 향상시킨다. 수십억 규모 데이터셋에 대한 평가에서 CABANA는 기존의 SIMD 기반 구현을 능가하며, 최소한의 오버헤드로 최대 더 높은 쿼리 처리량을 달성하는 동시에 높은 리콜 성능을 유지한다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.