딥러닝(DL) 네트워크와 학습 데이터의 복잡성이 기하급수적으로 증가함에 따라, 연산 규모에 따라 확장되는 방법들이 인공지능(AI) 개발의 미래로 부상하고 있다. 이러한 맥락에서 머신러닝(ML)과 고성능컴퓨팅(HPC)의 상호작용은 AI 연구 및 개발의 효율을 신속히 향상시키기 위한 혁신적인 패러다임이다. 그러나 HPC/AI 융합 시스템을 구축하고 운영하기 위해서는 최신 컴퓨팅, 네트워킹, 저장 기술을 활용하기 위한 폭넓은 지식이 필요하다. 또한 HPC 기반 AI 컴퓨팅 환경은 시스템 자원을 효율적으로 활용하기 위해 적절한 자원 배분 및 모니터링 전략을 필요로 한다. 이에 본 연구에서는 최신 기술을 바탕으로 고성능 AI 컴퓨팅 환경을 구축하고 운영하기 위한 기법을 제안한다. 구체적으로, HPC/AI 융합 시스템은 광주과학기술원(Gwangju Institute of Science and Technology, GIST) 내에 구축되며, GIST AI-X 컴퓨팅 클러스터로 명명하였다. 해당 클러스터는 최신 Nvidia DGX 서버, 고성능 저장 및 네트워킹 장비, 그리고 다양한 오픈소스 도구를 활용하여 구축되었다. 따라서 연구 및 교육 기관을 위한 소규모 또는 중규모 HPC/AI 융합 시스템을 구축하는 데 유용한 참고 사례가 될 수 있다. 더불어 다중 에이전트 심층 강화학습(multi-agent deep reinforcement learning, mDRL)을 통해 DL 작업에 대한 자원 배분 방법을 제안하여 컴퓨팅 자원을 효율적으로 활용하고자 한다. 광범위한 시뮬레이션과 실험을 통해, 제안한 mDRL 알고리즘이 HPC/AI 융합 클러스터가 시스템 활용도와 전력 소비 개선을 모두 달성하는 데 기여할 수 있음을 검증하였다. 제안한 자원 배분 방법을 해당 시스템에 적용한 결과, 전체 작업 완료 시간은 약 20% 감소하였고, 비효율적인 전력 소비는 약 40% 감소하였다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.