강화학습 기반 하이브리드 비전 트랜스포머 양자화 및 압축 프레임워크 연구

RL-Based Quantization and Compression for Hybrid Vision Transformers

연구 내용

강화학습과 Hessian 기반 손실을 활용해 하이브리드 비전 트랜스포머의 혼합 정밀도 양자화 및 압축을 자동화하는 연구

하이브리드 convolution–transformer 모델을 저비트로 압축할 때 발생하는 정확도 손실을 줄이기 위해 reinforcement learning을 양자화 설정 탐색에 결합합니다. 레이어 그룹화와 observer/bit-width 선택을 학습 대상으로 정의하고, 혼합 정밀도 구성에서 정확도 저하가 큰 양자화 지점을 제어하는 프레임워크를 구축합니다. 또한 PIM(Processing In Memory) 등 특정 아키텍처에서의 지연·전력 피드백을 활용하는 HW-aware PTQ로 확장하여 배포 가능 설계를 지향합니다. 별도로 sparse + low-rank 분해 기반 구성요소를 Hessian-aware 방식으로 독립 정량화하고, 중복 계산을 줄이면서 2차 손실을 최소화하도록 격자 탐색을 수행하는 통합 압축 연구도 병행합니다.

관련 프로젝트

0건

연구 흐름

초기에는 post-training quantization에서 bit-width와 observer 선택이 정확도에 미치는 영향을 분석하고, reinforcement learning 기반 탐색으로 MobileViT 등 하이브리드 비전 트랜스포머의 혼합 정밀도 구성을 자동화하는 방향으로 연구를 진행하였습니다. 이후 PIM 기반 실행 조건을 고려해 실제 지연·전력 신호를 in-loop으로 반영하는 HW-aware PTQ를 도입하고, symmetric/assymmetric 및 mixed adaptive rounding 같은 양자화 기법을 확장하여 다양한 비전 트랜스포머 계열로 적용 범위를 넓혔습니다. 최근에는 sparse + low-rank 분해와 component-wise Hessian-aware quantization을 통합한 QSLR 형태로, 구조적 분해와 정량화 최적화를 결합하는 압축 프레임워크로 확장하고 있습니다.

활용 가능성

활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.

Mixed precision PTQ 자동 설정
Hybrid vision transformer 양자화
RL 기반 observer/bit-width 탐색
HW-aware PTQ 배포 최적화
PIM 아키텍처 전력-지연 고려
Component-wise Hessian-aware quantization
Sparse + low-rank 기반 압축
격자 탐색 기반 2차 손실 최소화
대규모 모델 저비트 배치
정확도 손실 최소화 양자화 파이프라인