최근 거대 언어 모델(GPT, LLaMA, PaLM 등)은 의학, 교육, 금융, 법학, 마케팅 등 다양한 분야에서 활발히 활용되고 있다. 이러한 모델들은 매우 많은 매개변수를 지니고 있어 여러 GPU를 활용해야만 모델을 로드하고 추론을 수행할 수 있다. 추론 서비스를 운영하는 클러스터나 클라우드의 시스템 관리자에게는 주어진 GPU와 네트워크 자원을 최대한 효율적으로 사용하면서 많은 사용자 요청에 빠르게 응답하는 것이 매우 중요하다. 이를 위해 현재의 거대 언어 모델 추론 시스템은 다양한 병렬화 및 최적화 전략을 사용하고 있다. 본 논문은 LLM의 추론과정에서 병렬화, 최적화 전략, 및 배치 사이즈의 변화에 따른 추론 시간, 예측 정확도, GPU 통신량과 GPU 메모리 점유량을 상세히 프로파일링하고 분석한다. 특히, 본 연구는 GPU에 대한 엄밀한 자원 측정을 위해 프로파일러를 새롭게 개발하여 사용한다. 프로파일링 및 분석 결과, 본 연구는 배치 사이즈가 증가하면 병렬화 전략에 의해 GPU 통신량이 증가하여 비효율성을 초래할 수 있음을 관측한다. 반면, GPU 메모리 측면에서는 배치 사이즈가 커질수록 메모리를 더 적극적으로 활용하나, 물리 메모리 크기를 초과하여 메모리 부족(out-of-memory)이 발생하는 특정 임계점이 존재함을 확인한다. 이러한 관측은 향후 LLM의 효율적인 추론 시스템을 설계하는 데 필요한 중요한 기반이 될 것으로 기대된다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.