자원 제약이 있는 다양한 대상에 합성곱 신경망(CNN)을 적용하기 위해서는, 정밀도 표현을 더 낮은 비트 표현으로 변환하는 양자화(quantization)를 수행하여 CNN 모델을 압축할 필요가 있다. 학습 데이터셋의 민감성, 높은 계산 요구량, 큰 시간 소모와 같은 문제를 극복하기 위해, 재학습을 필요로 하지 않는 후(後)학습 양자화(post-training quantization) 방법들이 제안되어 왔다. 또한 재학습 없이 정확도 저하를 보상하기 위해, 기존의 후학습 양자화 연구에서는 보정(calibration), 스킴(schemes), 클리핑(clipping), 과립도(granularity), 혼합정밀도(mixed-precision) 등 여러 보완적 방법을 제안하였다. 최소한의 오차를 갖는 양자화 모델을 생성하기 위해서는, 각 방법이 상호 보완적이며 CNN 모델이 서로 다른 특성을 가지므로 모든 가능한 방법 조합을 연구할 필요가 있다. 그러나 완전 탐색 또는 휴리스틱 탐색은 지나치게 많은 시간이 소요되거나 성능이 최적이 아니기 쉽다. 이러한 도전을 해결하기 위해, 양자화 설정(configuration)의 탐색을 가속하고 양자화 오차를 감소시키는 Quantune으로 알려진 자동 튜너(auto-tuner)를 제안한다. Quantune은 그라디언트 트리 부스팅(gradient tree boosting) 모델을 구축하여 양자화 구성의 탐색을 가속한다. 우리는 Quantune을 무작위(random), 격자(grid), 유전 알고리즘(genetic algorithms)과 비교·평가하였다. 실험 결과는 Quantune이 여섯 개의 CNN 모델(취약한 모델들인 MobileNet, SqueezeNet, ShuffleNet 포함)에서 정확도 손실 0.07–0.65%를 유지하면서 양자화 탐색 시간을 약 36.5배 감소시킴을 보여준다. 또한 여러 대상에 대응하고 지속적으로 발전하는 양자화 작업을 수용하기 위해, Quantune은 공개 소스 프로젝트로서 딥러닝을 위한 완전한 컴파일러(full-fledged compiler)에 구현되어 있다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.