Mobile Transformer Accelerator Exploiting Various Line Sparsity and Tile-Based Dynamic Quantization | 권은지 교수 연구실 | 국민대학교 인공지능학부

권은지 교수 연구실

홈

기본 정보

연구 분야

논문

구성원

article|

인용수 10

·2023

Mobile Transformer Accelerator Exploiting Various Line Sparsity and Tile-Based Dynamic Quantization

Eunji Kwon, Jongho Yoon, Seokhyeong Kang

IF 2.7 (2023) IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems

초록

트랜스포머 모델은 메모리 및 연산이 집약적인 특성 때문에 모바일 기기에서 활용하기 어렵다. 이에 따라 가지치기(pruning)와 양자화(quantization)와 같은 다양한 트랜스포머 모델 압축 방법에 대한 연구가 지속적으로 이루어지고 있다. 그러나 중앙 처리 장치(CPU)와 그래픽 처리 장치(GPU) 같은 일반적인 연산 플랫폼은 비정형 희소성(unstructured sparsity)을 나타내기 때문에 병렬성(parallelism) 저하가 발생하여 가지치기된 모델을 가속하는 데 에너지 효율적이지 않다. 본 논문에서는 서로 다른 과립도(granularity)에서 선 가지치기(line pruning)로 유도된 다양한 수준의 구조화 희소성(structured sparsity)을 처리할 수 있는 저전력 트랜스포머 가속기를 제안한다. 제안한 방법은 헤드(head) 단위 및 라인(line) 단위로 가지치기된 트랜스포머를 가속한다. 또한 각 헤드마다 수행되는 연산 수가 달라서 처리 엔진(PE) 간 부하 불균형 문제를 야기하는 문제를 해결하는 동시에, 헤드 단위 스킵(skip) 연산을 지원하는 헤드 재구성(head reorganization) 및 셔플(shuffling) 방법을 제시한다. 더 나아가 라인 단위 스킵을 지원하고 활성값(activations)에 대해 온더플라이(on-the-fly) 타일 기반(tile-based) 동적 양자화(dynamic quantization)를 수행하는 희소 양자화 일반 행렬-대-행렬 곱셈(sparse quantized general matrix-to-matrix multiplication, SQ-GEMM) 모듈을 구현하였다. 그 결과, 제안한 가속기는 모바일 GPU 및 CPU에 비해 각각 검출 트랜스포머(DETR)에서 에너지 효율을 2.9× 및 12.3× 향상시켰고, 비전 트랜스포머(ViT) 모델에서는 각각 3.0× 및 12.4× 향상시켰다. 또한 제안한 모바일 가속기는 현재의 최첨단 FPGA 기반 트랜스포머 가속기들 중에서 가장 높은 에너지 효율을 달성하였다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

Computer scienceTransformerEfficient energy useComputationParallel computingQuantization (signal processing)Matrix multiplicationMobile deviceGranularityComputer hardware

타입

article

IF / 인용수

2.7 / 10

원문

https://doi.org/10.1109/tcad.2023.3347291

게재 연도

2023

프로젝트 공고 서비스 문의 자주 묻는 질문 이용약관 개인정보처리방침

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)