기존 양자화(quantization) 접근법은 하이브리드 합성곱(convolution) 및 트랜스포머 모델을 저 비트폭(low bit-width)으로 압축할 때 종종 상당한 정확도 저하를 겪는다. 본 논문은 이전의 RL-PTQ 프레임워크[1]를 확장한 RL-PTQv2를 제시한다. RL-PTQv2는 새로운 강화학습(reinforcement learning, RL) 기반 사후 학습 양자화(post-training quantization, PTQ) 방법을 도입한다. RL-PTQv2는 두 가지 핵심 발전을 포함한다: (i) 하드웨어(HW)-인식 PTQ(선택적)로, RL이 인-루프 PIM 시뮬레이터(in-loop PIM simulator)로부터의 실제 지연(real latency) 및 에너지(energy) 피드백에 의해 유도되며, 정확도, 지연, 에너지를 공동으로 최적화하는 배치 가능한 설계를 가능하게 하고, (ii) 정밀도와 효율의 균형을 더 잘 맞추기 위한 대칭/비대칭 양자화 및 혼합(mixed) 적응적 라운딩(mixed adaptive rounding)을 지원하는 개선된 양자화 기법이다. MobileViTv1 및 v2[2], [3], EfficientFormerv1 및 v2[4], [5], MobileFormer[6]를 포함한 다양한 하이브리드 비전 트랜스포머 계열에서 RL-PTQv2는 이전 PTQ 방법[7], [8], [9], [10]에 비해 정량화된 정확도에서 최신 성능을 달성한다. 또한, 양자화된 모델은 기준 모델(baseline model)과 비교하여 TransPIM[11]에서 10.1×, Titan RTX GPU에서 22.6×의 에너지 효율 향상을 보였으며, 이는 MobileViT 모델을 효율적으로 실행하기 위한 전용 처리 프레임워크인 HViT-PIM에 배치했을 때 특히 두드러졌다. HViT-PIM은 주로 HW-aware PTQ의 잠재력을 탐색하기 위해 개발되었다. 그러나 RL-PTQv2는 메모리 내 처리(processing-in-memory, PIM)에만 국한되지 않는다. 다양한 비트-직렬(bit-serial) 가속기와도 원활하게 통합할 수 있으며, 이를 통해 기저 HW에 맞춘 자동 양자화를 가능하게 한다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.