비전 트랜스포머(iT)는 다양한 비전 작업에서의 성능으로 주목받고 있지만, 상당한 연산 및 메모리 요구량을 동반하여 자원이 제한된 엣지 디바이스에 배치할 때 어려움이 따른다. 이 한계를 해결하기 위해 연산을 줄이기 위한 다양한 토큰 가지치기(token pruning) 방법이 제안되어 왔다. 그러나 대부분의 토큰 가지치기 기법은 실제 임베디드 디바이스에서의 사용을 고려하지 않는데, 임베디드 디바이스는 계산 부하의 상당한 감소를 요구한다. 본 논문에서는 그룹화된 토큰 가지치기를 적용한 iT 가속기 ViT-ToGo를 제안한다. 이를 통해 iT 모델과 토큰 가지치기 과정을 병렬로 실행할 수 있다. 우리는 토큰 가지치기 과정을 포함한 정렬 및 재배열(sorting and reordering) 필요를 단순화하는 head-wise 중요도 추정기(head-wise importance estimator)로 그룹화된 토큰 가지치기를 구현한다. 제안 방법은 토큰 수를 최대 66%까지 감소시키며, 그 결과 GFLOPs를 최대 36%까지 감소시키는 성과를 보였고, 정확도는 약 1%의 최소한의 하락만을 나타낸다. 또한 하드웨어 구현은 평균 1.13%의 미미한 자원 오버헤드를 유발한다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.