GMM: An Efficient GPU Memory Management-based Model Serving System for Multiple DNN Inference Models | 김종국 교수 연구실 | 고려대학교 전기전자공학부

|김종국 교수 연구실

홈

연구 영역

기본 정보

논문·특허

과제

구성원

Article|

인용수 1

·2024

GMM: An Efficient GPU Memory Management-based Model Serving System for Multiple DNN Inference Models

XinYu Piao, Jong‐Kook Kim

초록

최근 DNN 모델 서빙 시스템은 다양한 추론(inference) 모델을 사용자에게 서비스로 제공하기 위해 멀티 GPU 및 분산 시스템을 활용하기 시작했다. 그러나 최신 GPU 기반 모델 서빙 시스템은 GPU 메모리 용량을 초과하여 여러 추론 모델을 동시에 실행할 수 없다. 이는 추론 모델이 각자 사전 할당된 GPU 메모리를 점유하고 그 위에서 실행하며, 이 메모리가 다른 추론 모델과 공유될 수 없기 때문이다. 그 결과 더 많은 추론 모델에 대한 수요가 증가할수록 더 많은 GPU 또는 더 대형의 시스템이 필요해진다. 본 논문에서는 GPU 메모리 관리(GPU Memory Management) 기반의 효율적인 모델 서빙 시스템인 GMM을 제안하여 GPU 메모리 한계를 넘어 여러 추론 모델을 서빙한다. GMM은 GPU 메모리 공간을 큰 텐서(tensor)로 초기화하여 모든 모델이 어떠한 제약 없이 GPU 메모리 어디에든 캐시할 수 있도록 한다. 그리고 추론 모델들이 GPU에서 충돌 없이 실행될 수 있도록 하기 위해, GMM은 사용되지 않는 GPU 메모리 공간을 찾아 메모리 덮어쓰기(memory overwriting) 방식을 사용하여 실행을 위한 모델의 파라미터를 캐시한다. 제안된 시스템은 단일 GPU에서 이전 시스템들보다 더 많은 수의 추론 모델을 병렬로 실행할 수 있게 하며, 그 결과 처리량이 향상되고 일부 경우 추론 시간이 더 짧아진다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

Computer scienceInferenceMemory managementParallel computingArtificial intelligenceComputer architectureOperating systemSemiconductor memory

타입

Article

IF / 인용수

- / 1

원문

https://doi.org/10.1145/3673038.3673122

게재 연도

2024