Mobile Accelerator Exploiting Sparsity of Multi-Heads, Lines, and Blocks in Transformers in Computer Vision | 권은지 교수 연구실 | 국민대학교 인공지능학부

권은지 교수 연구실

홈

기본 정보

연구 분야

논문

구성원

article|

인용수 8

·2023

Mobile Accelerator Exploiting Sparsity of Multi-Heads, Lines, and Blocks in Transformers in Computer Vision

Eunji Kwon, Haena Song, Jihye Park, Seokhyeong Kang

초록

메모리 및 연산 집약적 특성 때문에 모바일 기기에서 컴퓨터 비전 용도로 transformer 모델을 활용하기는 어렵다. 이에 따라 가지치기(pruning)와 같은 transformer 모델 압축을 위한 다양한 방법에 관한 연구가 지속되고 있다. 그러나 중앙 처리 장치(central processing units, CPUs)와 그래픽 처리 장치(graphics processing units, GPUs)와 같은 일반 컴퓨팅 플랫폼은 구조적 희소성(structured sparsity) 때문에 가지치기로 압축된 모델을 가속하는 데 에너지 효율적이지 않다. 본 논문에서는 가지치기를 서로 다른 과립도(granularity)로 수행하여 유도된 다양한 크기의 구조적 희소성을 갖는 transformer용 저전력 가속기를 제안한다. 본 연구에서는 헤드(head)-단위, 라인(line)-단위 또는 블록(block)-단위로 가지치기된 transformer를 가속할 수 있다. 이를 위해 헤드-단위 스킵 연산을 지원하고, 한 개의 헤드에서 수행되는 연산 수가 달라 발생하는 처리 엔진(processing engine, PE) 부하 불균형 문제를 해결하기 위한 헤드 스케줄링(head scheduling) 알고리즘을 개발하였다. 또한 라인-단위 및 블록-단위 스킵을 지원하는 희소 일반 행렬-대-행렬 곱셈(sparse general matrix-to-matrix multiplication, sparse GEMM) 모듈을 구현하였다. 그 결과, 제안한 가속기는 모바일 GPU와 모바일 CPU 각각에 비해 검출 transformer(detection transformer, DETR) 모델에서 에너지 효율을 $6.1 \times$ 및 $13.6 \times$ 향상시켰고, 비전 transformer(vision transformer, ViT) 모델들에서는 평균적으로 에너지 효율을 각각 약 $2.6 \times$ 및 $7.9 \times$ 향상시켰다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

Computer scienceTransformerComputationMobile deviceModuloParallel computingComputer hardwareComputational scienceAlgorithmOperating system

타입

article

IF / 인용수

- / 8

원문

https://doi.org/10.23919/date56975.2023.10137099

게재 연도

2023

프로젝트 공고 서비스 문의 자주 묻는 질문 이용약관 개인정보처리방침

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)