PIM·in-DRAM 기반 에너지 효율 추론 가속

Energy-Efficient Inference Acceleration with PIM and in-DRAM

연구 내용

DRAM/메모리 내부 연산과 토큰·희소성 중심 데이터 경로를 설계하여 LLM 및 DNN 추론의 전력과 대역폭 병목을 완화하는 연구

DRAM·eDRAM 구조에서 데이터 이동을 줄이기 위해 in-DRAM 매핑과 PIM 기반 가중치 적용 기법을 결합하는 연구를 수행합니다. 희소 행렬 연산에서는 행 단위 동작 특성을 반영한 매핑과 비트 수준 희소성 활용을 통해 SpMV 처리 효율을 높입니다. LLM 서빙에서는 LoRA 델타를 메모리 내부에서 덮어씌우는 in-memory delta injection과, 토큰 패딩 제거 및 Top-K 기반 gated gather로 오프칩 트래픽을 줄이는 아키텍처를 제안합니다. 또한 전력 제약 하에서 레이어별 매핑을 탐색하는 프레임워크로 에너지-지연 균형을 달성합니다.

관련 프로젝트

6건

연구 흐름

초기에는 DRAM에서 동작하는 행 단위 특성을 고려하여 희소 행렬 연산의 데이터 경로를 재구성하는 in-DRAM 가속을 연구했습니다. 이후 레이어별 계산·메모리 접근 특성을 반영한 전력 제약 매핑 최적화로 확장하여 NPU 추론의 에너지 효율을 목표로 탐색 기반 설계를 수행했습니다. 2025년에는 생성형 추론에서 메모리 대역폭 병목을 줄이기 위해 토큰 스트림 처리와 gated gather 엔진 구조를 제안했습니다. 동시에 LoRA 어댑터 스위칭 과정의 데이터 이동 비용을 줄이기 위해 PIM DRAM에서 델타 적용을 수행하는 구조를 구현했습니다.

활용 가능성

활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.

in-DRAM SpMV 가속기 설계
PIM 기반 LoRA 서빙
전력 제약 NPU 레이어 매핑 자동화
메모리 대역폭 절감 토큰 처리
희소성 인지 연산 파이프라인
에너지-지연 트레이드오프 최적화
DRAM 내 오버레이 연산 모듈
오프칩 트래픽 저감 가속 아키텍처
FPGA-기반 추론 엔진 설계 자동화
데이터센터 LLM 전력 최적화