Dissecting and Re-Architecting 3D NAND Flash PIM Arrays for Efficient Single-Batch Token Generation in LLMS | 궁재하 교수 연구실 | 고려대학교 전기전자공학부

|궁재하 교수 연구실

홈

연구 영역

기본 정보

논문·특허

과제

구성원

Article|

인용수 0

·2025

Dissecting and Re-Architecting 3D NAND Flash PIM Arrays for Efficient Single-Batch Token Generation in LLMS

Yongjoo Jang, Sangwoo Hwang, Hojin Lee, Sangwoo Jung, Donghun Lee, Wonbo Shim, Jaeha Kung

초록

대규모 언어 모델의 발전은 수십억 개의 파라미터를 갖는 모델로 이어졌으며, 이에 따라 메모리와 연산 요구가 크게 증가하였다. 기존 하드웨어에서 이러한 모델을 서빙하는 것은 DRAM 용량의 제한과 높은 GPU 비용 때문에 도전적이다. 따라서 본 연구에서는 단일 배치 토큰 생성(single-batch token generation)을 3D NAND 플래시 처리-메모리(PIM) 장치로 오프로딩(offloading)하는 방안을 제안하고, 높은 저장 밀도를 활용하여 DRAM 용량의 한계를 극복하고자 한다. 우리는 3D NAND 플래시 구성들을 탐색하고, 최적의 지연시간과 셀 밀도를 위해 H-tree 네트워크를 갖춘 재구조화된 PIM 어레이를 제시한다. 또한 적절히 선택된 PIM 어레이 크기와 함께, LLM 계층을 위한 연산 타일링과 매핑 방법을 개발하여, vLLM을 사용하는 4대의 RTX4090 대비 $2.4 \times$ 의 속도 향상을 달성하면서, 지연시간 오버헤드는 4.9%에 그치고 4대의 A100과 비교 가능한 성능을 확보하였다. 상세한 면적 분석 결과, 제안된 3D NAND 플래시 PIM 아키텍처는 추가적인 면적 오버헤드 없이 메모리 어레이 내에 $4.98 mm^{2}$ 의 다이 면적 이내로 통합될 수 있음을 확인하였다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

NAND gateDramLatency (audio)Flash (photography)SpeedupCAS latency

타입

Article

IF / 인용수

- / 0

원문

https://doi.org/10.1109/iccd65941.2025.00040

게재 연도

2025