저비트 LLM 양자화 및 회전 기반 학습/비학습 최적화

Low-bit LLM quantization with rotation-based optimization (QAT & training-free)

연구 내용

회전 기법과 QAT(Quantization-Aware Training)를 결합하여 W2A4KV4급 저비트 LLM을 안정적으로 압축하고 추론 메모리 사용과 지연을 낮추는 연구

본 분야는 LLM 추론에서 핵심 병목인 연산 비용과 KV cache 메모리 부담을 줄이기 위해 저비트 양자화를 수행합니다. rotation 기법이 가중치 분포 비균일성에 미치는 영향을 분석하여 W2A4KV4 구성을 목표로 하며, Learnable Direct Partitioning 기반의 비균일 양자화 구간을 함께 학습하는 QAT 전략을 적용합니다. 또한 Hadamard transform과 토큰/채널 정규화 변환을 활용해 calibration-free VQ를 구성하고, low-bit 환경에서의 분포 shift에 강건하도록 정렬을 수행합니다. GPU 커널 수준의 GEMV 가속을 통해 실제 추론 흐름에 적용 가능한 구현 관점을 포함합니다.

관련 프로젝트

3건

연구 흐름

초기에는 저비트(특히 2-bit) 양자화에서 rotation 기반 접근이 겪는 오차 원인을 파악하고, rotation이 가중치 분포의 비균일성에 어떤 방식으로 영향을 주는지 이론적으로 정리하는 연구를 수행했습니다. 이후 QAT 관점에서 비균일 양자화 구간을 직접 학습하는 Learnable Direct Partitioning을 도입해 W2A4KV4 압축을 안정화했습니다. 2025년에는 학습이 없는 Walsh-Hadamard 기반 sequency ordering과 grouped block 구조로 outlier 영향을 분리하는 rotation 설계를 제안하고, KV cache에 대해서는 토큰/채널 정규화와 Hadamard 변환을 조합한 calibration-free VQ로 일반화 성능을 개선했습니다. 병행 과제로는 2021-2024년 기간의 엣지 온디바이스 AI 컴퓨팅을 위한 경량화·양자화 프레임워크 개발이 이어졌습니다.

활용 가능성

활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.

온디바이스 LLM 추론
KV cache 저비트 압축
W2A4KV4 실행 최적화
Calibration-free 양자화 파이프라인
비균일 양자화 커널 활용
메모리 대역폭 병목 완화
모바일 타깃 LLM 배포
저지연 추론 가속
엣지용 모델 경량화 자동화
저비트 추론 성능 안정화 도구