처리-메모리 및 서버 아키텍처 효율화 연구

Processing-in-Memory and Server Architecture Efficiency

연구 내용

PIM 기반 연산 가속과 데이터센터 서버의 지연·에너지·네트워크·오프로드 학습 병목을 함께 최적화하는 연구

Transformer 추론에서 RoPE 연산이 야기하는 데이터 이동과 의존성을 줄이기 위해, DRAM/메모리 근접 영역에서 multiply-addition을 처리하는 Processing-in-Memory(PIM) 구조를 설계하고 bank/row 매핑을 조정해 병렬 실행과 DRAM activation을 함께 제어합니다. 서버 측에서는 latency-critical 애플리케이션에 대해 CPU-utilization을 스레드와 네트워크 패킷 처리로 분리 측정하고 core allocation 조합을 예측해 에너지 효율을 개선합니다. 또한 다중 큐 NIC의 병렬 패킷 처리를 반영하는 full-system 시뮬레이션을 구축하여 gem5의 네트워크 모델 한계를 보완하고, CPU-offloaded training에서 optimizer-state writeback이 임계 경로를 지배하는 문제를 재정렬로 완화합니다.

관련 프로젝트

7건

연구 흐름

초기에는 데이터센터 서버의 동적 코어 할당이 네트워크 패킷 처리까지 고려할 때 에너지 효율과 tail latency에 미치는 영향을 분석하고 CoreNap으로 확장했습니다. 이후에는 서버 네트워크 연구를 위해 다중 큐 NIC와 MSI 기반 IRQ 매핑을 포함한 pNet-gem5로 실험 가능한 full-system 시뮬레이션을 마련했습니다. 병렬 처리와 메모리 근접 연산으로 연구 축을 확장하여, RoPIM에서 RoPE 연산을 PIM 가속기로 구현하고 데이터 이동 병목을 완화했습니다. 최근에는 오프로드 학습에서 CPU 측 optimizer-time이 임계 경로를 지배하는 구조적 병목을 ReplayOpt으로 해결하는 방향으로 심화하고 있습니다.

활용 가능성

활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.

RoPE 가속기 설계
DRAM PIM 기반 추론 가속
지연 민감 서버 에너지 관리
네트워크 패킷 처리 코어 스케줄링
다중 큐 NIC 아키텍처 평가
고성능 네트워크 시뮬레이션 프레임워크
CPU-offloaded training 병목 완화
호스트-디바이스 동기화 비용 절감
데이터센터 LLM 시스템 최적화
아키텍처 프로토타이핑 및 실험