거대 언어 모델(Large Language Models, LLM)은 중요한 전환점을 맞이하고 있으나, 자기회귀적 추론은 상당한 메모리 대역폭 병목에 의해 성능과 에너지 효율이 저해된다. 본 논문에서는 생성형 AI 추론의 효율성을 위해 특별히 설계된 새로운 하드웨어 가속기 아키텍처인 GATHER를 제안한다. GATHER는 두 가지 핵심 기여를 제공한다. (1) 가변 길이 시퀀스를 원활하게 처리하는 토큰 스트림 프로세서로서, 패딩에 따른 오버헤드를 완전히 제거한다. (2) Top-K 주의(attention) 점수 선택을 전용 주소 가더(address gather) 유닛과 밀접하게 결합함으로써 주의 병목을 해결하는 특화된 게이티드-가더(Gated-Gather) 엔진이다. 이 엔진은 가장 두드러진 토큰을 식별하고, DRAM에 대해 최적화된 배치 메모리 요청을 발행하여 칩 외부 트래픽을 현저히 감소시킨다. 평가 결과, 제안하는 아키텍처는 GPT-2 및 Llama-3-8B에서 처리량과 에너지 효율 측면에서 단일 NVIDIA A100 GPU보다 우수함을 보인다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.