Rotate, Clip, and Partition: Towards W2A4KV4 Quantization by Integrating Rotation and Learnable Non-uniform Quantizer | 유승주 교수 연구실 | 서울대학교 컴퓨터공학부

유승주 교수 연구실

서비스 플랜

연구실 검색

프로젝트 공고

정부 과제 추천

AI 기반 기업 서칭

홈

기본 정보

연구 분야

프로젝트

논문

구성원

preprint|

인용수 0

·2025

Rotate, Clip, and Partition: Towards W2A4KV4 Quantization by Integrating Rotation and Learnable Non-uniform Quantizer

Euntae Choi, Sumin Song, Woosang Lim, Sungjoo Yoo

ArXiv.org

초록

우리는 회전, 클립 및 분할(Rotate, Clip, and Partition, RCP)이라는 양자화 인식 학습(quantization-aware training, QAT) 접근법을 제안한다. 이 방법은 먼저 W2A4KV4(2비트 가중치, 4비트 활성, 4비트 KV 캐시) 구성으로 LLM을 극단적으로 압축하는 것을 실현한다. RCP는 최근의 회전(rotation) 기법을 L2-bit 가중치 양자화에 대한 임의 회전(random rotation)의 영향을 정량적으로 분석함으로써, 새로운 비균일(non-uniform) 가중치 양자화기 설계와 통합한다. 우리의 가중치 양자화기는 학습 가능한 직접 분할(Learnable Direct Partitioning, LDP)을 특징으로 하며, LLM 가중치와 함께 비균일 구간을 직접 학습하기 위해 학습 가능한 매개변수를 도입한다. 또한 비균일 W2A4에 대해 GEMV를 지원하는 전용 GPU 커널을 제시한다. 실험 결과, RCP는 LLaMA-2-7B를 W2A4KV4로 압축하면서 WikiText2 ppl 손실이 2.84에 불과하고 메모리 사용량은 5.29배 감소한다. 더 나아가 RCP는 수렴 실패 및 반복(repetition)과 같은 치명적인 문제 없이, 모바일 대상(mobile-targeted) LLaMA-3.2 모델과 도메인 특화 WizardCoder-7B 및 MetaMath-7B를 양자화할 수 있음을 보여준다. 코드는 https://github.com/ songsm921/RCP에서 제공된다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

Quantization (signal processing)Rotation (mathematics)Kernel (algebra)Convergence (economics)Partition (number theory)Data compressionCompression (physics)Code (set theory)

타입

preprint

IF / 인용수

- / 0

원문

http://arxiv.org/abs/2502.15779

게재 연도

2025

프로젝트 공고 서비스 문의 자주 묻는 질문 이용약관 개인정보처리방침

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)