연구 영역
기본 정보
논문·특허
과제
구성원
읽는 시간 · 1분 40초

처리-메모리 및 서버 아키텍처 효율화 연구

Processing-in-Memory and Server Architecture Efficiency

연구 내용

PIM 기반 연산 가속과 데이터센터 서버의 지연·에너지·네트워크·오프로드 학습 병목을 함께 최적화하는 연구

Transformer 추론에서 RoPE 연산이 야기하는 데이터 이동과 의존성을 줄이기 위해, DRAM/메모리 근접 영역에서 multiply-addition을 처리하는 Processing-in-Memory(PIM) 구조를 설계하고 bank/row 매핑을 조정해 병렬 실행과 DRAM activation을 함께 제어합니다. 서버 측에서는 latency-critical 애플리케이션에 대해 CPU-utilization을 스레드와 네트워크 패킷 처리로 분리 측정하고 core allocation 조합을 예측해 에너지 효율을 개선합니다. 또한 다중 큐 NIC의 병렬 패킷 처리를 반영하는 full-system 시뮬레이션을 구축하여 gem5의 네트워크 모델 한계를 보완하고, CPU-offloaded training에서 optimizer-state writeback이 임계 경로를 지배하는 문제를 재정렬로 완화합니다.

관련 연구 성과

관련 논문

4

관련 특허

0

관련 프로젝트

7

연구 흐름

초기에는 데이터센터 서버의 동적 코어 할당이 네트워크 패킷 처리까지 고려할 때 에너지 효율과 tail latency에 미치는 영향을 분석하고 CoreNap으로 확장했습니다. 이후에는 서버 네트워크 연구를 위해 다중 큐 NIC와 MSI 기반 IRQ 매핑을 포함한 pNet-gem5로 실험 가능한 full-system 시뮬레이션을 마련했습니다. 병렬 처리와 메모리 근접 연산으로 연구 축을 확장하여, RoPIM에서 RoPE 연산을 PIM 가속기로 구현하고 데이터 이동 병목을 완화했습니다. 최근에는 오프로드 학습에서 CPU 측 optimizer-time이 임계 경로를 지배하는 구조적 병목을 ReplayOpt으로 해결하는 방향으로 심화하고 있습니다.

활용 가능성

활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.

  • RoPE 가속기 설계
  • DRAM PIM 기반 추론 가속
  • 지연 민감 서버 에너지 관리
  • 네트워크 패킷 처리 코어 스케줄링
  • 다중 큐 NIC 아키텍처 평가
  • 고성능 네트워크 시뮬레이션 프레임워크
  • CPU-offloaded training 병목 완화
  • 호스트-디바이스 동기화 비용 절감
  • 데이터센터 LLM 시스템 최적화
  • 아키텍처 프로토타이핑 및 실험

관련 논문

구분

제목

1

RoPIM: A Processing-in-Memory Architecture for Accelerating Rotary Positional Embedding in Transformer Models

2

CoreNap: Energy Efficient Core Allocation for Latency-Critical Workloads

3

pNet-gem5: Full-System Simulation With High-Performance Networking Enabled by Parallel Network Packet Processing

4

ReplayOpt: Optimizer-State Replay to Resolve Critical-Path Bottlenecks in Offloaded Training

관련 프로젝트

구분

제목

1

LLM 구현을 위한 효율적인 메모리 관리 및 병렬화 기법을 갖는 추론연산 DRAM PIM 하드웨어 구조 개발

2

암흑데이터 극한활용 연구센터

3

암흑데이터 극한활용 연구센터

4

암흑데이터 극한활용 연구센터

5

암흑데이터 극한활용 연구센터

6

암흑데이터 극한활용 연구센터

7

암흑데이터 극한활용 연구센터