Autonomous Model Quantization Framework for Hybrid Vision Transformers based on Reinforcement Learning | 권은지 교수 연구실 | 국민대학교 인공지능학부

권은지 교수 연구실

홈

기본 정보

연구 분야

논문

구성원

article|

인용수 0

·2025

Autonomous Model Quantization Framework for Hybrid Vision Transformers based on Reinforcement Learning

Eunji Kwon, Tajana Rosing

IF 2.9 (2025) IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems

초록

기존 양자화(quantization) 접근법은 하이브리드 합성곱(convolution) 및 트랜스포머 모델을 저 비트폭(low bit-width)으로 압축할 때 종종 상당한 정확도 저하를 겪는다. 본 논문은 이전의 RL-PTQ 프레임워크[1]를 확장한 RL-PTQv2를 제시한다. RL-PTQv2는 새로운 강화학습(reinforcement learning, RL) 기반 사후 학습 양자화(post-training quantization, PTQ) 방법을 도입한다. RL-PTQv2는 두 가지 핵심 발전을 포함한다: (i) 하드웨어(HW)-인식 PTQ(선택적)로, RL이 인-루프 PIM 시뮬레이터(in-loop PIM simulator)로부터의 실제 지연(real latency) 및 에너지(energy) 피드백에 의해 유도되며, 정확도, 지연, 에너지를 공동으로 최적화하는 배치 가능한 설계를 가능하게 하고, (ii) 정밀도와 효율의 균형을 더 잘 맞추기 위한 대칭/비대칭 양자화 및 혼합(mixed) 적응적 라운딩(mixed adaptive rounding)을 지원하는 개선된 양자화 기법이다. MobileViTv1 및 v2[2], [3], EfficientFormerv1 및 v2[4], [5], MobileFormer[6]를 포함한 다양한 하이브리드 비전 트랜스포머 계열에서 RL-PTQv2는 이전 PTQ 방법[7], [8], [9], [10]에 비해 정량화된 정확도에서 최신 성능을 달성한다. 또한, 양자화된 모델은 기준 모델(baseline model)과 비교하여 TransPIM[11]에서 10.1×, Titan RTX GPU에서 22.6×의 에너지 효율 향상을 보였으며, 이는 MobileViT 모델을 효율적으로 실행하기 위한 전용 처리 프레임워크인 HViT-PIM에 배치했을 때 특히 두드러졌다. HViT-PIM은 주로 HW-aware PTQ의 잠재력을 탐색하기 위해 개발되었다. 그러나 RL-PTQv2는 메모리 내 처리(processing-in-memory, PIM)에만 국한되지 않는다. 다양한 비트-직렬(bit-serial) 가속기와도 원활하게 통합할 수 있으며, 이를 통해 기저 HW에 맞춘 자동 양자화를 가능하게 한다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

Quantization (signal processing)Reinforcement learningTransformerRoundingAdderEfficient energy use

타입

article

IF / 인용수

2.9 / 0

원문

https://doi.org/10.1109/tcad.2025.3641538

게재 연도

2025

프로젝트 공고 서비스 문의 자주 묻는 질문 이용약관 개인정보처리방침

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)