연구 영역
기본 정보
논문·특허
과제
구성원
Article|
인용수 0
·2026
QubitCache: Quantum-Inspired Probabilistic Attention Preservation for KV-Cache Compression
Jieui Kang, Jaeyoung Choi, Wonhui Noh, Jaehyeong Sim
IF 3.6 (2026) IEEE Access
초록

대규모 언어 모델의 추론은 KV 캐시로 인한 치명적인 메모리 병목에 직면해 있으며, 이는 시퀀스 길이에 따라 선형적으로 증가하고 장문 컨텍스트 생성 동안 GPU 메모리의 대부분을 지배한다. 기존 압축 방법은 토큰을 제거(eviction)하여 메모리를 줄이지만, 복잡한 추론에 필수적인 주의(attention) 관계를 되돌릴 수 없이 폐기한다. 우리는 KV 캐시 압축을 토큰 선택이 아니라 주의 분포(attention distribution) 압축으로 재구성하는 프레임워크인 QubitCache를 제시한다. 우리의 접근은 quantum-inspired 수학적 형식(양자 컴퓨팅의 계층적 진폭 인코딩(hierarchical amplitude encoding) 구조를 고전적 확률 분포 압축기로 사용하되, 양자 하드웨어는 요구하지 않음)을 활용하여 로그 매개변수 공간에서 주의 가중치 분포를 표현한다. QubitCache는 하이브리드 아키텍처를 도입한다. 즉, 핵심 토큰(시퀀스의 15%)은 고정밀 고전 저장소에 그대로 유지하는 반면, 나머지 토큰에 대한 주의 분포는 계층적 진폭 인코딩을 사용해 압축하며 세그먼트당 57× 매개변수 감소를 달성한다. 우리는 파이프라인 출력 오차가 압축된 토큰에 할당된 주의 질량(attention mass)의 비율에 의해 상계됨을 보이는 형식적 분석을 제공하며, 이는 고유한 주의 희소성(정리 1)으로 인해 작다(≤15%). 우리의 설계에서 중요한 성질은, 압축 분포가 프리필(prefill) 이후 고정되며 따라서 디코딩 동안 질의-비의존적(query-agnostic)이라는 점이다. 우리는 이러한 트레이드오프의 함의를 분석하고, 그 결과 λmass 안정성이 평가된 과제들에 대해 충분함을 경험적으로 입증한다. 추론 과정에서 압축 분포는 소프트 주의 가중치를 제공하기 위해 재구성되며, 압축된 토큰의 맥락적 영향은 이진(binary) 결정이 아닌 확률적 결정(probabilistic)으로 유지된다. 우리는 QubitCache를 16개의 LongBench 과제와 RULER 벤치마크에 걸쳐 4개의 장문 컨텍스트 모델에서 평가하고, 고전적 기준선(H2O, SnapKV) 및 최근 방법(MiniKV, Compactor)과 비교한다. QubitCache는 약 6.7×의 메모리 감소를 달성하면서도 전체 KV 성능의 91–99%를 유지하며, RULER에서 평균 74.8을 기록해 토큰 제거 기반 기준선보다 10.5점 높다. 지연 시간 분석은 토큰당 디코드 오버헤드가 제거 기반 방법 대비 2× 이내로 유지됨을 확인한다. 민감도, 양자화 통합, 실패 사례를 포함하는 포괄적 분석을 통해, 이 접근이 성공하는 조건과 한계가 있는 지점을 규명한다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드
Probabilistic logicCompression (physics)Data compressionCompression artifactPattern recognition (psychology)
타입
Article
IF / 인용수
3.6 / 0
게재 연도
2026