클라우드 및 엣지 디바이스에서 런타임 복잡성이 변동함에 따라, 탄력적 대규모 언어 모델(LLM) 배치가 필요하며, 여기서 LLM은 사용 가능한 연산 자원에 따라 다양한 양자화 정밀도로 추론될 수 있다. 그러나 양자화의 보정(calibration) 파라미터가 통상 특정 정밀도와 연동되어 있다는 점이 관찰되어, 런타임 중 탄력적 정밀도 보정 및 정밀도 전환에 어려움이 제기된다. 본 연구에서는 정밀도에 따라 달라지는 보정 파라미터의 원인이, 정밀도 의존적인 이상치(outlier) 마이그레이션 현상으로 인해 토큰 수준의 민감도가 달라지기 때문임을 규명한다. 이러한 관찰에 동기되어, 토큰 민감도에 기반해 탄력적 LLM 추론을 위해 가중치 정밀도를 조정하는 새로운 Mixture-of-Bits 양자화 프레임워크인 \texttt{MoBiQuant}를 제안한다. 구체적으로, 더 높은 정밀도의 가중치를 반복적으로 재구성할 수 있는 many-in-one 재귀적 잔차(residual) 양자화와, 잔차 비트 슬라이스의 개수를 동적으로 선택하기 위한 토큰 인지형 라우터를 제안한다. MoBiQuant은 토큰 이상치 분포에 대한 일반화 성능을 향상시키면서도 정밀도 전환을 매끄럽게 가능하게 한다. 실험 결과는 MoBiQuant이 강한 탄력성을 보이며, 반복적인 보정 없이 LLaMA3-8B에서 비트별로 보정된 PTQ의 성능에 근접함을 보여준다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.