우리는 Rotate, Clip, and Partition (RCP)이라는 양자화 인식 학습(Quantization-Aware Training, QAT) 접근법을 제안한다. RCP는 먼저 W2A4KV4(2비트 가중치, 4비트 활성, 4비트 KV-cache) 구성을 통해 LLM을 극단적으로 압축하는 것을 실현한다. RCP는 회전에 관한 최근 기법들을 통합하되, 회전이 가중치 분포의 비균일성에 미치는 영향을 이론적 및 실증적으로 분석함으로써 새로운 비균일 가중치 양자화기 설계를 제안한다. 우리의 가중치 양자화기인 Learnable Direct Partitioning (LDP)은 LLM 가중치와 함께 비균일 구간을 직접 학습하도록 학습 가능한 파라미터를 도입한다. 또한 비균일 W2A4에 대해 GEMV를 지원하는 GPU 커널을 개념 증명의 형태로 제시한다. 실험 결과, RCP는 LLaMA-2-7B를 W2A4KV4로 압축하되 WikiText2 PPL 손실은 2.84에 그치며, 메모리 사용량은 5.29배 감소한다. 더 나아가 RCP는 수렴 실패나 반복과 같은 치명적 문제 없이, 모바일을 대상으로 하는 어려운 LLaMA-3.2 모델들과 도메인 특화 WizardCoder-7B 및 MetaMath-7B도 양자화할 수 있음을 보인다. 코드는 https://github.com/ songsm921/RCP 에서 제공된다. * 는 동등 기여를, 1 은 교신저자를, 우리는 W2A4KV4처럼 WlAmKVn 형태로 l비트 가중치, m비트 활성 및 n비트 KV-cache를 지칭한다. 비균일 양자화를 위한 LUT 추론과 4비트 활성에 대한 특수 가속을 모두 지원하는 사용 가능한 하드웨어가 없으므로, 개념 증명의 목적으로 CUDA에서 가속된 GEMV 커널을 설계한다. 우리의 커널은 메모리 사용량을 최대 5.29배까지 줄이면서, FP16 PyTorch(Paszke et al., 2019) 및 INT4 QuaRot 구현보다 더 낮은 지연 시간을 달성할 수 있다. 우리의 기여는 다음과 같이 요약된다. 우리는 회전이 가중치 분포와 어떻게 상호작용하며 극단적 W2A4KV4 양자화에서 어떤 어려움을 야기하는지를 실증적·이론적으로 분석한다. 이를 해결하기 위해, 우리는 회전에서의 장점과 QAT를 LDP를 통해 결합하는 양자화 알고리즘 RCP를 도입하는데, LDP는 완전히 학습 가능한 비균일 양자화기이다. 우리는 RCP가 처음으로 W2A4KV4 및 W3A4KV4 양자화를 달성함을 방대한 실험을 통해 입증하여 최첨단 성능을 달성한다. 예비지식 2.1 LLM 양자화를 위한 랜덤 회전
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.