기본 정보
연구 분야
프로젝트
논문
구성원
읽는 시간 · 1분 50초

저비트 LLM 양자화 및 회전 기반 학습/비학습 최적화

Low-bit LLM quantization with rotation-based optimization (QAT & training-free)

연구 내용

회전 기법과 QAT(Quantization-Aware Training)를 결합하여 W2A4KV4급 저비트 LLM을 안정적으로 압축하고 추론 메모리 사용과 지연을 낮추는 연구

본 분야는 LLM 추론에서 핵심 병목인 연산 비용과 KV cache 메모리 부담을 줄이기 위해 저비트 양자화를 수행합니다. rotation 기법이 가중치 분포 비균일성에 미치는 영향을 분석하여 W2A4KV4 구성을 목표로 하며, Learnable Direct Partitioning 기반의 비균일 양자화 구간을 함께 학습하는 QAT 전략을 적용합니다. 또한 Hadamard transform과 토큰/채널 정규화 변환을 활용해 calibration-free VQ를 구성하고, low-bit 환경에서의 분포 shift에 강건하도록 정렬을 수행합니다. GPU 커널 수준의 GEMV 가속을 통해 실제 추론 흐름에 적용 가능한 구현 관점을 포함합니다.

관련 연구 성과

관련 논문

5

관련 특허

0

관련 프로젝트

3

연구 흐름

초기에는 저비트(특히 2-bit) 양자화에서 rotation 기반 접근이 겪는 오차 원인을 파악하고, rotation이 가중치 분포의 비균일성에 어떤 방식으로 영향을 주는지 이론적으로 정리하는 연구를 수행했습니다. 이후 QAT 관점에서 비균일 양자화 구간을 직접 학습하는 Learnable Direct Partitioning을 도입해 W2A4KV4 압축을 안정화했습니다. 2025년에는 학습이 없는 Walsh-Hadamard 기반 sequency ordering과 grouped block 구조로 outlier 영향을 분리하는 rotation 설계를 제안하고, KV cache에 대해서는 토큰/채널 정규화와 Hadamard 변환을 조합한 calibration-free VQ로 일반화 성능을 개선했습니다. 병행 과제로는 2021-2024년 기간의 엣지 온디바이스 AI 컴퓨팅을 위한 경량화·양자화 프레임워크 개발이 이어졌습니다.

활용 가능성

활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.

  • 온디바이스 LLM 추론
  • KV cache 저비트 압축
  • W2A4KV4 실행 최적화
  • Calibration-free 양자화 파이프라인
  • 비균일 양자화 커널 활용
  • 메모리 대역폭 병목 완화
  • 모바일 타깃 LLM 배포
  • 저지연 추론 가속
  • 엣지용 모델 경량화 자동화
  • 저비트 추론 성능 안정화 도구

관련 논문

구분

제목

1

Rotate, Clip, and Partition: Towards W2A4KV4 Quantization by Integrating Rotation and Learnable Non-uniform Quantizer

2

Rotate, Clip, and Partition: Towards W2A4KV4 Quantization by Integrating Rotation and Learnable Non-uniform Quantizer

3

Grouped Sequency-arranged Rotation: Optimizing Rotation Transformation for Quantization for Free

4

Grouped Sequency-arranged Rotation: Optimizing Rotation Transformation for Quantization for Free

5

NSNQuant: A Double Normalization Approach for Calibration-Free Low-Bit Vector Quantization of KV Cache

관련 프로젝트

구분

제목

1

엣지 응용 스케일러블 온디바이스 AI 컴퓨팅을 위한 모델 경량화 프레임워크 개발

2

엣지 응용 스케일러블 온디바이스 AI 컴퓨팅을 위한 모델 경량화 프레임워크 개발

3

엣지 응용 스케일러블 온디바이스 AI 컴퓨팅을 위한 모델 경량화 프레임워크 개발

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)

© 2026 RnDcircle. All Rights Reserved.