기본 정보
연구 분야
프로젝트
논문
구성원
preprint|
인용수 0
·2025
NSNQuant: A Double Normalization Approach for Calibration-Free Low-Bit Vector Quantization of KV Cache
Donghyun Son, Euntae Choi, Sungjoo Yoo
ArXiv.org
초록

대규모 언어 모델(LLM) 추론은 키-값(KV) 캐시의 큰 크기 때문에, 특히 큰 배치 크기와 긴 시퀀스를 처리할 때 일반적으로 메모리 집약적이다. 벡터 양자화(VQ)는 이 문제를 완화하기 위해 최근 도입되었으나, 보정(calibration) 데이터셋에 의존한다는 점 때문에 기존 접근이 분포 이동(distribution shift)에 취약함을 확인하였다. 이러한 한계를 해결하기 위해, KV 캐시에 대한 저비트 압축을 목표로 한 보정 불필요(calibration-free) 벡터 양자화(VQ) 기법인 NSNQuant를 제안한다. 세 단계의 변환—1) 토큰 단위 정규화(Normalize), 2) 채널 단위 중심 이동(Shift), 3) 하다마드(Hadamard) 변환을 포함한 두 번째 토큰 단위 정규화(Normalize)—을 적용함으로써 NSNQuant는 토큰 분포를 표준 정규 분포와 효과적으로 정렬한다. 이러한 정렬은 단일 재사용 가능한 코드북(codebook)을 사용하여 견고하고 보정 불필요한 벡터 양자화를 가능하게 한다. 광범위한 실험 결과, NSNQuant는 1비트 및 2비트 설정 모두에서 기존 방법들보다 일관되게 우수한 성능을 보였으며, 완전 정밀(full-precision) 기준선 대비 최대 3 처리량(throughput) 향상을 제공하여 강한 일반화 성능을 나타냈다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드
Normalization (sociology)Vector quantizationQuantization (signal processing)Security tokenLinde–Buzo–Gray algorithmLearning vector quantizationData compression
타입
preprint
IF / 인용수
- / 0
게재 연도
2025

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)

© 2026 RnDcircle. All Rights Reserved.