Energy-Efficient Inference Acceleration with PIM and in-DRAM
연구 내용
DRAM/메모리 내부 연산과 토큰·희소성 중심 데이터 경로를 설계하여 LLM 및 DNN 추론의 전력과 대역폭 병목을 완화하는 연구
DRAM·eDRAM 구조에서 데이터 이동을 줄이기 위해 in-DRAM 매핑과 PIM 기반 가중치 적용 기법을 결합하는 연구를 수행합니다. 희소 행렬 연산에서는 행 단위 동작 특성을 반영한 매핑과 비트 수준 희소성 활용을 통해 SpMV 처리 효율을 높입니다. LLM 서빙에서는 LoRA 델타를 메모리 내부에서 덮어씌우는 in-memory delta injection과, 토큰 패딩 제거 및 Top-K 기반 gated gather로 오프칩 트래픽을 줄이는 아키텍처를 제안합니다. 또한 전력 제약 하에서 레이어별 매핑을 탐색하는 프레임워크로 에너지-지연 균형을 달성합니다.
관련 연구 성과
관련 논문
4편
관련 특허
2건
관련 프로젝트
6건
연구 흐름
초기에는 DRAM에서 동작하는 행 단위 특성을 고려하여 희소 행렬 연산의 데이터 경로를 재구성하는 in-DRAM 가속을 연구했습니다. 이후 레이어별 계산·메모리 접근 특성을 반영한 전력 제약 매핑 최적화로 확장하여 NPU 추론의 에너지 효율을 목표로 탐색 기반 설계를 수행했습니다. 2025년에는 생성형 추론에서 메모리 대역폭 병목을 줄이기 위해 토큰 스트림 처리와 gated gather 엔진 구조를 제안했습니다. 동시에 LoRA 어댑터 스위칭 과정의 데이터 이동 비용을 줄이기 위해 PIM DRAM에서 델타 적용을 수행하는 구조를 구현했습니다.
활용 가능성
활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.
관련 논문
구분
제목
SpDRAM: Efficient In-DRAM Acceleration of Sparse Matrix-Vector Multiplication
MAGNETO: A Genetic Algorithm-Based Power-Aware Mapping Optimization Framework for Mobile NPUs
GATHER: A Gated-Attention Accelerator for Efficient LLM Inference
LoRA-PIM: In-Memory Delta-Weight Injection for Multi-Adapter LLM Serving
관련 특허
구분
제목
비트 직렬 연산 처리 장치 및 방법
그래프 신경망을 이용하여 하드웨어 구조의 설계를 가속하는 하드웨어 구조 설계 장치 및 하드웨어 구조 설계 방법
관련 프로젝트
구분
제목
에너지 효율적 범용 멀티 모달 AI를 위한 복합 연산 가속기 기초 연구실
FPGA 기반 인공지능 반도체를 위한 종단간 설계 자동화 프레임워크
FPGA 기반 인공지능 반도체를 위한 종단간 설계 자동화 프레임워크
인공지능 혁신 허브 연구 개발
인공지능 혁신 허브 연구 개발
인공지능 혁신 허브 연구 개발