MoBiQuant: Mixture-of-Bits Quantization for Token-Adaptive Elastic LLMs | 고종환 교수 연구실 | 성균관대학교 전자전기컴퓨터공학과

고종환 교수 연구실

홈

기본 정보

연구 분야

프로젝트

논문

구성원

Article|

인용수 0

·2026

MoBiQuant: Mixture-of-Bits Quantization for Token-Adaptive Elastic LLMs

Dongwei Wang, Jinhee Kim, Seokho Han, Denis Gudovskiy, Yohei Nakata, Tomoyuki Okuno, KhayTze Peong, Kang Eun Jeon, Jong Hwan Ko, Yiran Chen, Huanrui Yang

arXiv (Cornell University)

초록

클라우드 및 엣지 디바이스에서 런타임 복잡성이 변동함에 따라, 탄력적 대규모 언어 모델(LLM) 배치가 필요하며, 여기서 LLM은 사용 가능한 연산 자원에 따라 다양한 양자화 정밀도로 추론될 수 있다. 그러나 양자화의 보정(calibration) 파라미터가 통상 특정 정밀도와 연동되어 있다는 점이 관찰되어, 런타임 중 탄력적 정밀도 보정 및 정밀도 전환에 어려움이 제기된다. 본 연구에서는 정밀도에 따라 달라지는 보정 파라미터의 원인이, 정밀도 의존적인 이상치(outlier) 마이그레이션 현상으로 인해 토큰 수준의 민감도가 달라지기 때문임을 규명한다. 이러한 관찰에 동기되어, 토큰 민감도에 기반해 탄력적 LLM 추론을 위해 가중치 정밀도를 조정하는 새로운 Mixture-of-Bits 양자화 프레임워크인 \texttt{MoBiQuant}를 제안한다. 구체적으로, 더 높은 정밀도의 가중치를 반복적으로 재구성할 수 있는 many-in-one 재귀적 잔차(residual) 양자화와, 잔차 비트 슬라이스의 개수를 동적으로 선택하기 위한 토큰 인지형 라우터를 제안한다. MoBiQuant은 토큰 이상치 분포에 대한 일반화 성능을 향상시키면서도 정밀도 전환을 매끄럽게 가능하게 한다. 실험 결과는 MoBiQuant이 강한 탄력성을 보이며, 반복적인 보정 없이 LLaMA3-8B에서 비트별로 보정된 PTQ의 성능에 근접함을 보여준다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

Quantization (signal processing)ResidualSecurity tokenInferenceCalibrationOutlierGeneralization

타입

Article

IF / 인용수

- / 0

원문

http://arxiv.org/abs/2602.20191

게재 연도

2026

프로젝트 공고 서비스 문의 자주 묻는 질문 이용약관 개인정보처리방침

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)