연구 영역
기본 정보
논문·특허
과제
구성원
읽는 시간 · 1분 45초

이기종·메모리 중심 LLM 추론 가속 및 전력 효율 최적화 연구

Memory-Centric Acceleration and Energy Optimization for LLM Inference

연구 내용

Transformer 추론에서 KV 처리와 메모리 병목을 공략하기 위해 PIM·CXL·SSD 오프로딩·행렬 연산 최적화를 결합하는 연구

Transformer 기반 생성 모델에서 병렬 처리 자원이 유리한 구간과 병목이 되는 DRAM 접근·KV 처리 패턴을 함께 분석합니다. PIM 관점에서는 KV 행렬을 한 번 기록하고 반복 활용하는 특성을 이용하여 장치 내부에서 임베딩 벡터와의 곱셈을 수행하고, 소자 간 통신 대역폭과 에너지 부담을 줄입니다. CXL 기반으로는 메모리 장치 내 코어 통합과 rank-level 병렬 거리 계산으로 대규모 벡터 검색을 오프로딩합니다. 또한 GPU에서 TSVD 기반 타일 SVD 행렬곱을 통해 압축-정확도 균형과 실행 효율을 조절하고, MoE 가중치의 SSD 오프로딩 시 에너지 관점을 정량적으로 평가하며, 모바일에서는 메모리 회수 정책을 혼합 방식으로 최적화합니다.

관련 연구 성과

관련 논문

5

관련 특허

0

관련 프로젝트

5

연구 흐름

초기에는 GPU 및 기존 플랫폼이 Transformer 추론의 attention/KV 단계에서 비효율적인 이유를 데이터 이동 관점에서 규명하고, 메모리 중심 처리로 전환하는 설계를 제안했습니다. 이후에는 CXL 메모리 장치에서 ANNS 오프로딩을 수행하기 위한 병렬 거리 계산과 배치 전략을 확장했습니다. 병렬 계산의 하위 연산으로는 행렬곱의 효율을 높이기 위해 TSVD 기반 타일 분해를 적용하여 GPU 리소스 활용성을 개선했습니다. 최근에는 에너지 효율 문제를 SSD 오프로딩 분석과 모바일 메모리 회수 기법으로 확장하여, 추론 시스템 전 구간에서 병목과 트레이드오프를 함께 다루는 방향으로 진행하고 있습니다.

활용 가능성

활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.

  • 고처리량 LLM 서빙
  • KV 처리 기반 attention 가속
  • CXL 기반 RAG용 ANN 검색
  • GPU 효율 중심 행렬곱 최적화
  • TSVD 기반 모델 압축 추론
  • MoE 디코드 에너지 분석
  • SSD 오프로딩 정책 수립
  • 이기종 메모리 오프로딩 설계
  • 모바일 애플리케이션 기동 지연 최적화
  • 생성형 AI 컴퓨팅 플랫폼 지속가능화

관련 논문

구분

제목

1

Unleashing the Potential of PIM: Accelerating Large Batched Inference of Transformer-Based Generative Models

2

Cosmos: A CXL-Based Full In-Memory System for Approximate Nearest Neighbor Search

3

A Hardware-Friendly Tiled Singular-Value Decomposition-Based Matrix Multiplication for Transformer-Based Models

4

SSD Offloading for LLM Mixture-of-Experts Weights Considered Harmful in Energy Efficiency

5

Hechi: A Hybrid Approach for Efficient Memory Reclamation Techniques in Mobile Systems

관련 프로젝트

구분

제목

1

AI 반도체 기반 기계학습 등 가속 라이브러리 기술 개발

2

AI 반도체 기반 기계학습 등 가속 라이브러리 기술 개발

3

거대 AI 모델 학습 및 추론을 위한 가속기, 네트워크, 메모리, 스토리지 하드웨어 및 시스템 소프트웨어 통합 설계

4

거대 AI 모델 학습 및 추론을 위한 가속기, 네트워크, 메모리, 스토리지 하드웨어 및 시스템 소프트웨어 통합 설계

5

지속가능한 생성형 인공지능 컴퓨팅 플랫폼 연구실