연구 영역
기본 정보
논문·특허
과제
구성원
Article|
·
인용수 102
·2024
SHViT: Single-Head Vision Transformer with Memory Efficient Macro Design
Seokju Yun, Youngmin Ro
초록

최근 효율적인 비전 트랜스포머(Vision Transformers)는 연산 지연(latency)이 낮으면서도 자원이 제한된 장치에서 뛰어난 성능을 보인 바 있다. 일반적으로 이들은 패치 임베딩과 매크로 수준의 4단계 구조를 사용하며, 마이크로 수준에서는 멀티-헤드(multi-head) 구성의 정교한 어텐션(attention)을 활용한다. 본 논문은 메모리 효율적인 방식으로 설계 전반의 계산적 중복을 해결하는 것을 목표로 한다. 우리는 더 큰 스트라이드(stride)의 patchify 스템을 사용하면 메모리 접근 비용을 줄일 뿐만 아니라, 초기 단계부터 토큰 표현이 공간적 중복을 감소시키는 특성을 활용함으로써 경쟁력 있는 성능을 달성할 수 있음을 발견하였다. 또한 예비 분석을 통해, 초기 단계의 어텐션 레이어는 합성곱(convolution)으로 대체될 수 있으며, 후반 단계의 여러 어텐션 헤드(attention heads)는 계산적으로 중복된다는 점을 시사한다. 이를 처리하기 위해, 헤드 중복을 본질적으로 방지하는 단일 헤드(single-head) 어텐션 모듈을 도입하고, 전역(global) 정보와 국소(local) 정보를 병렬로 결합하여 정확도 또한 동시에 향상시킨다. 이러한 해결책을 바탕으로, 최신의 속도-정확도 절충(tradeoff)을 달성하는 Single-Head Vision Transformer인 SHViT를 제안한다. 예를 들어 ImageNet-1k에서 우리의 SHViT-S4는 GPU, CPU 및 iPhone12 모바일 기기에서 각각 MobileViTv2 대비 이며, 정확도는 1.3% 더 높다. MS COCO에서 Mask-RCNN 헤드를 사용한 객체 검출 및 인스턴스 분할에서, 본 모델은 FastViT-SA12와 비슷한 수준의 성능을 달성하면서도 GPU와 모바일 장치에서 각각 백본(backbone) 지연을 로 더 낮춘다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드
Computer scienceTransformerMacroComputer hardwareElectrical engineeringEngineeringVoltageProgramming language
타입
Article
IF / 인용수
- / 102
게재 연도
2024