대규모 언어 모델의 발전은 수십억 개의 파라미터를 갖는 모델로 이어졌으며, 이에 따라 메모리와 연산 요구가 크게 증가하였다. 기존 하드웨어에서 이러한 모델을 서빙하는 것은 DRAM 용량의 제한과 높은 GPU 비용 때문에 도전적이다. 따라서 본 연구에서는 단일 배치 토큰 생성(single-batch token generation)을 3D NAND 플래시 처리-메모리(PIM) 장치로 오프로딩(offloading)하는 방안을 제안하고, 높은 저장 밀도를 활용하여 DRAM 용량의 한계를 극복하고자 한다. 우리는 3D NAND 플래시 구성들을 탐색하고, 최적의 지연시간과 셀 밀도를 위해 H-tree 네트워크를 갖춘 재구조화된 PIM 어레이를 제시한다. 또한 적절히 선택된 PIM 어레이 크기와 함께, LLM 계층을 위한 연산 타일링과 매핑 방법을 개발하여, vLLM을 사용하는 4대의 RTX4090 대비 의 속도 향상을 달성하면서, 지연시간 오버헤드는 4.9%에 그치고 4대의 A100과 비교 가능한 성능을 확보하였다. 상세한 면적 분석 결과, 제안된 3D NAND 플래시 PIM 아키텍처는 추가적인 면적 오버헤드 없이 메모리 어레이 내에 의 다이 면적 이내로 통합될 수 있음을 확인하였다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.