NSNQuant: A Double Normalization Approach for Calibration-Free Low-Bit Vector Quantization of KV Cache | 유승주 교수 연구실 | 서울대학교 컴퓨터공학부

유승주 교수 연구실

서비스 플랜

연구실 검색

프로젝트 공고

정부 과제 추천

AI 기반 기업 서칭

홈

기본 정보

연구 분야

프로젝트

논문

구성원

preprint|

인용수 0

·2025

NSNQuant: A Double Normalization Approach for Calibration-Free Low-Bit Vector Quantization of KV Cache

Donghyun Son, Euntae Choi, Sungjoo Yoo

ArXiv.org

초록

대규모 언어 모델(LLM) 추론은 키-값(KV) 캐시의 큰 크기 때문에, 특히 큰 배치 크기와 긴 시퀀스를 처리할 때 일반적으로 메모리 집약적이다. 벡터 양자화(VQ)는 이 문제를 완화하기 위해 최근 도입되었으나, 보정(calibration) 데이터셋에 의존한다는 점 때문에 기존 접근이 분포 이동(distribution shift)에 취약함을 확인하였다. 이러한 한계를 해결하기 위해, KV 캐시에 대한 저비트 압축을 목표로 한 보정 불필요(calibration-free) 벡터 양자화(VQ) 기법인 NSNQuant를 제안한다. 세 단계의 변환—1) 토큰 단위 정규화(Normalize), 2) 채널 단위 중심 이동(Shift), 3) 하다마드(Hadamard) 변환을 포함한 두 번째 토큰 단위 정규화(Normalize)—을 적용함으로써 NSNQuant는 토큰 분포를 표준 정규 분포와 효과적으로 정렬한다. 이러한 정렬은 단일 재사용 가능한 코드북(codebook)을 사용하여 견고하고 보정 불필요한 벡터 양자화를 가능하게 한다. 광범위한 실험 결과, NSNQuant는 1비트 및 2비트 설정 모두에서 기존 방법들보다 일관되게 우수한 성능을 보였으며, 완전 정밀(full-precision) 기준선 대비 최대 3 $im es$ 처리량(throughput) 향상을 제공하여 강한 일반화 성능을 나타냈다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

Normalization (sociology)Vector quantizationQuantization (signal processing)Security tokenLinde–Buzo–Gray algorithmLearning vector quantizationData compression

타입

preprint

IF / 인용수

- / 0

원문

http://arxiv.org/abs/2505.18231

게재 연도

2025

프로젝트 공고 서비스 문의 자주 묻는 질문 이용약관 개인정보처리방침

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)