우리는 회전, 클립 및 분할(Rotate, Clip, and Partition, RCP)이라는 양자화 인식 학습(quantization-aware training, QAT) 접근법을 제안한다. 이 방법은 먼저 W2A4KV4(2비트 가중치, 4비트 활성, 4비트 KV 캐시) 구성으로 LLM을 극단적으로 압축하는 것을 실현한다. RCP는 최근의 회전(rotation) 기법을 L2-bit 가중치 양자화에 대한 임의 회전(random rotation)의 영향을 정량적으로 분석함으로써, 새로운 비균일(non-uniform) 가중치 양자화기 설계와 통합한다. 우리의 가중치 양자화기는 학습 가능한 직접 분할(Learnable Direct Partitioning, LDP)을 특징으로 하며, LLM 가중치와 함께 비균일 구간을 직접 학습하기 위해 학습 가능한 매개변수를 도입한다. 또한 비균일 W2A4에 대해 GEMV를 지원하는 전용 GPU 커널을 제시한다. 실험 결과, RCP는 LLaMA-2-7B를 W2A4KV4로 압축하면서 WikiText2 ppl 손실이 2.84에 불과하고 메모리 사용량은 5.29배 감소한다. 더 나아가 RCP는 수렴 실패 및 반복(repetition)과 같은 치명적인 문제 없이, 모바일 대상(mobile-targeted) LLaMA-3.2 모델과 도메인 특화 WizardCoder-7B 및 MetaMath-7B를 양자화할 수 있음을 보여준다. 코드는 https://github.com/ songsm921/RCP에서 제공된다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.