연구 영역
기본 정보
논문·특허
과제
구성원
Article|
·
인용수 0
·2025
Fold-PIM: A Cost-Efficient LPDDR5-Based PIM for On-Device SLMs
Kyoungho Jeun, Hyeonu Kim, Eojin Lee
IF 1.4 (2025) IEEE Computer Architecture Letters
초록

온디바이스 AI 애플리케이션에 대한 수요가 증가함에 따라 모바일 환경에 최적화된 소형 언어 모델(Small Language Models, SLMs)에 대한 관심이 높아지고 있다. 그러나 LPDDR5 기반 시스템의 제한된 메모리 대역폭은, SLM 추론의 핵심 구성요소인 메모리 바운드 행렬-벡터 곱(matrix-vector multiplication) 연산을 효율적으로 수행하는 데 있어 중대한 문제를 야기한다. 본 논문에서는 이러한 문제를 해결하기 위해 LPDDR5 기반 처리-메모리(Processing-in-Memory, PIM) 아키텍처인 Fold-PIM을 제안한다. FoldPIM은 비용 효율성을 유지하면서 서브어레이 수준 병렬성을 활용하는 공유 PU 아키텍처를 특징으로 한다. 또한 다양한 행렬 크기에 걸쳐 GEMV 연산을 효율적으로 수행하기 위한 적응형 타일링(adaptive tiling), 버퍼 오버헤드를 최소화하기 위한 전치된 데이터 레이아웃(transposed data layout), 그리고 벡터 교체(vector replacement) 지연을 감소시키기 위한 맞춤형 프로토콜을 포함한 핵심 기법을 도입한다. 평가 결과, Fold-PIM은 PIM이 없는 기준 시스템(baseline system)과 비교하여 SLM 추론에서 토큰 생성 시간(token generation time)을 최대 3.9배까지 향상시키는 것으로 나타났다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드
Computer scienceComputer architecture
타입
Article
IF / 인용수
1.4 / 0
게재 연도
2025