Processing-in-Memory and Server Architecture Efficiency
연구 내용
PIM 기반 연산 가속과 데이터센터 서버의 지연·에너지·네트워크·오프로드 학습 병목을 함께 최적화하는 연구
Transformer 추론에서 RoPE 연산이 야기하는 데이터 이동과 의존성을 줄이기 위해, DRAM/메모리 근접 영역에서 multiply-addition을 처리하는 Processing-in-Memory(PIM) 구조를 설계하고 bank/row 매핑을 조정해 병렬 실행과 DRAM activation을 함께 제어합니다. 서버 측에서는 latency-critical 애플리케이션에 대해 CPU-utilization을 스레드와 네트워크 패킷 처리로 분리 측정하고 core allocation 조합을 예측해 에너지 효율을 개선합니다. 또한 다중 큐 NIC의 병렬 패킷 처리를 반영하는 full-system 시뮬레이션을 구축하여 gem5의 네트워크 모델 한계를 보완하고, CPU-offloaded training에서 optimizer-state writeback이 임계 경로를 지배하는 문제를 재정렬로 완화합니다.
관련 연구 성과
관련 논문
4편
관련 특허
0건
관련 프로젝트
7건
연구 흐름
초기에는 데이터센터 서버의 동적 코어 할당이 네트워크 패킷 처리까지 고려할 때 에너지 효율과 tail latency에 미치는 영향을 분석하고 CoreNap으로 확장했습니다. 이후에는 서버 네트워크 연구를 위해 다중 큐 NIC와 MSI 기반 IRQ 매핑을 포함한 pNet-gem5로 실험 가능한 full-system 시뮬레이션을 마련했습니다. 병렬 처리와 메모리 근접 연산으로 연구 축을 확장하여, RoPIM에서 RoPE 연산을 PIM 가속기로 구현하고 데이터 이동 병목을 완화했습니다. 최근에는 오프로드 학습에서 CPU 측 optimizer-time이 임계 경로를 지배하는 구조적 병목을 ReplayOpt으로 해결하는 방향으로 심화하고 있습니다.
활용 가능성
활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.
관련 논문
구분
제목
RoPIM: A Processing-in-Memory Architecture for Accelerating Rotary Positional Embedding in Transformer Models
CoreNap: Energy Efficient Core Allocation for Latency-Critical Workloads
pNet-gem5: Full-System Simulation With High-Performance Networking Enabled by Parallel Network Packet Processing
ReplayOpt: Optimizer-State Replay to Resolve Critical-Path Bottlenecks in Offloaded Training
관련 프로젝트
구분
제목
LLM 구현을 위한 효율적인 메모리 관리 및 병렬화 기법을 갖는 추론연산 DRAM PIM 하드웨어 구조 개발
암흑데이터 극한활용 연구센터
암흑데이터 극한활용 연구센터
암흑데이터 극한활용 연구센터
암흑데이터 극한활용 연구센터
암흑데이터 극한활용 연구센터
암흑데이터 극한활용 연구센터