대규모 언어 모델(LLM)은 높은 연산 비용으로 인해 배치 시 어려움에 직면해 있으며, 사후 학습 양자화(Post-Training Quantization, PTQ)가 한 가지 해결책이지만, 기존 회전 기반 방법은 2비트와 같은 매우 낮은 비트폭에서는 어려움을 겪는다. 본 연구에서는 기존 방법의 한계를 해결하는 향상된 회전 행렬을 구성하기 위한, 학습이 필요 없는(free) 새로운 접근법을 제안한다. 핵심 기여는 순서(sequency) 배열을 활용한 월시-하다마드 변환(Walsh-Hadamard transform)으로, 유사한 주파수 성분을 군집화하여 표준 하다마드 행렬에 비해 양자화 오차를 줄이고 성능을 크게 향상시킨다는 점이다. 또한, 더 작은 월시 블록을 갖는 블록 대각(block-diagonal) 행렬을 사용하는 Grouped Sequency-arranged Rotation(GSR)을 제안하여, 이상치(outlier)의 영향을 효과적으로 격리함으로써 학습 기반 최적화 방법과 견줄 만한 성능을 달성하면서도 어떤 학습도 요구하지 않는다. 본 방법은 추론 과제와 WikiText-2에서의 Perplexity(PPL) 점수에서 견고한 성능을 보인다. 또한, 본 방법은 기존에 학습된 회전 기법들 위에 적용하더라도 결과를 개선한다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.