GATHER: A Gated-Attention Accelerator for Efficient LLM Inference | 심재형 교수 연구실 | 이화여자대학교 컴퓨터공학과

|심재형 교수 연구실

홈

연구 영역

기본 정보

논문·특허

과제

구성원

Article|

인용수 0

·2025

GATHER: A Gated-Attention Accelerator for Efficient LLM Inference

Eunjin Lee, Eunseo Kim, Eunjoung Yoo, Jaehyeong Sim

초록

거대 언어 모델(Large Language Models, LLM)은 중요한 전환점을 맞이하고 있으나, 자기회귀적 추론은 상당한 메모리 대역폭 병목에 의해 성능과 에너지 효율이 저해된다. 본 논문에서는 생성형 AI 추론의 효율성을 위해 특별히 설계된 새로운 하드웨어 가속기 아키텍처인 GATHER를 제안한다. GATHER는 두 가지 핵심 기여를 제공한다. (1) 가변 길이 시퀀스를 원활하게 처리하는 토큰 스트림 프로세서로서, 패딩에 따른 오버헤드를 완전히 제거한다. (2) Top-K 주의(attention) 점수 선택을 전용 주소 가더(address gather) 유닛과 밀접하게 결합함으로써 주의 병목을 해결하는 특화된 게이티드-가더(Gated-Gather) 엔진이다. 이 엔진은 가장 두드러진 토큰을 식별하고, DRAM에 대해 최적화된 배치 메모리 요청을 발행하여 칩 외부 트래픽을 현저히 감소시킨다. 평가 결과, 제안하는 아키텍처는 GPT-2 및 Llama-3-8B에서 처리량과 에너지 효율 측면에서 단일 NVIDIA A100 GPU보다 우수함을 보인다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

BottleneckInferenceMemory bandwidthSalientKey (lock)Efficient energy useThroughputSelection (genetic algorithm)Bandwidth (computing)

타입

Article

IF / 인용수

- / 0

원문

https://doi.org/10.1109/isocc66390.2025.11329547

게재 연도

2025