QSLR: Post-Training Compression via Quantized Sparse and Low-Rank Factorization | 권은지 교수 연구실 | 국민대학교 인공지능학부

권은지 교수 연구실

홈

기본 정보

연구 분야

논문

구성원

article|

인용수 0

·2025

QSLR: Post-Training Compression via Quantized Sparse and Low-Rank Factorization

Eunji Kwon

IF 3.6 (2025) IEEE Access

초록

트랜스포머 기반 파운데이션 모델의 규모와 복잡성이 커짐에 따라, 특히 자원이 제한된 환경에서 이들을 효율적으로 배치하는 데 상당한 어려움이 발생하고 있다. 최근의 후학습(post-training) 가지치기 또는 희소 + 저랭크 분해와 같은 방법들은 재학습 없이 모델 크기를 줄이지만, 여전히 32비트/고정밀(full-precision) 가중치에 의존하여 메모리 대역폭과 지연 시간에서의 이득을 제한한다. 본 논문에서는 희소 및 저랭크 분해를 통한 이상치(outlier) 인지 가지치기와 성분(component)-단위 헤시안(Hessian) 인지 양자화를 결합한 통합 후학습 양자화(PTQ) 프레임워크인 QSLR을 제안한다. 분해된 각 구성요소(희소 행렬, 저랭크 좌측 인자, 저랭크 우측 인자)는 투영된 헤시안을 사용하여 독립적으로 양자화되며, 불필요한 헤시안 계산을 제거하기 위한 효율적인 근사 기법이 사용된다. 또한 2차(Second-order) 양자화 손실을 최소화하기 위해 헤시안 가중 그리드 탐색으로 양자화 파라미터를 추가로 최적화한다. LLaMA2-7B 및 ViT-Base에 대한 실험 결과, QSLR은 최소한의 정확도 저하로 최대 5× 모델 압축을 달성하며, 기존의 최첨단 가지치기 또는 양자화 방법들을 일관되게 능가함을 보였다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

Quantization (signal processing)PruningFactorizationVector quantizationLimitingData compressionSparse matrixCompression ratioGrid

타입

article

IF / 인용수

3.6 / 0

원문

https://doi.org/10.1109/access.2025.3615473

게재 연도

2025

프로젝트 공고 서비스 문의 자주 묻는 질문 이용약관 개인정보처리방침

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)