Multi-Agent Deep Reinforcement Learning-Based Resource Allocation in HPC/AI Converged Cluster | 김종원 교수 연구실 | 광주과학기술원 AI융합학과

김종원 교수 연구실

서비스 플랜

연구실 검색

프로젝트 공고

정부 과제 추천

AI 기반 기업 서칭

홈

기본 정보

연구 분야

프로젝트

논문

구성원

article|

인용수 14

·2022

Multi-Agent Deep Reinforcement Learning-Based Resource Allocation in HPC/AI Converged Cluster

Jargalsaikhan Narantuya, Jun-Sik Shin, Sun Park, JongWon Kim

IF 3.1Computers, materials & continua/Computers, materials & continua (Print)

초록

딥러닝(DL) 네트워크와 학습 데이터의 복잡성이 기하급수적으로 증가함에 따라, 연산 규모에 따라 확장되는 방법들이 인공지능(AI) 개발의 미래로 부상하고 있다. 이러한 맥락에서 머신러닝(ML)과 고성능컴퓨팅(HPC)의 상호작용은 AI 연구 및 개발의 효율을 신속히 향상시키기 위한 혁신적인 패러다임이다. 그러나 HPC/AI 융합 시스템을 구축하고 운영하기 위해서는 최신 컴퓨팅, 네트워킹, 저장 기술을 활용하기 위한 폭넓은 지식이 필요하다. 또한 HPC 기반 AI 컴퓨팅 환경은 시스템 자원을 효율적으로 활용하기 위해 적절한 자원 배분 및 모니터링 전략을 필요로 한다. 이에 본 연구에서는 최신 기술을 바탕으로 고성능 AI 컴퓨팅 환경을 구축하고 운영하기 위한 기법을 제안한다. 구체적으로, HPC/AI 융합 시스템은 광주과학기술원(Gwangju Institute of Science and Technology, GIST) 내에 구축되며, GIST AI-X 컴퓨팅 클러스터로 명명하였다. 해당 클러스터는 최신 Nvidia DGX 서버, 고성능 저장 및 네트워킹 장비, 그리고 다양한 오픈소스 도구를 활용하여 구축되었다. 따라서 연구 및 교육 기관을 위한 소규모 또는 중규모 HPC/AI 융합 시스템을 구축하는 데 유용한 참고 사례가 될 수 있다. 더불어 다중 에이전트 심층 강화학습(multi-agent deep reinforcement learning, mDRL)을 통해 DL 작업에 대한 자원 배분 방법을 제안하여 컴퓨팅 자원을 효율적으로 활용하고자 한다. 광범위한 시뮬레이션과 실험을 통해, 제안한 mDRL 알고리즘이 HPC/AI 융합 클러스터가 시스템 활용도와 전력 소비 개선을 모두 달성하는 데 기여할 수 있음을 검증하였다. 제안한 자원 배분 방법을 해당 시스템에 적용한 결과, 전체 작업 완료 시간은 약 20% 감소하였고, 비효율적인 전력 소비는 약 40% 감소하였다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

Computer scienceReinforcement learningLeverage (statistics)SupercomputerArtificial intelligenceDistributed computingServerComputer clusterDeep learningResource allocation

타입

article

IF / 인용수

3.1 / 14

원문

https://doi.org/10.32604/cmc.2022.023318

게재 연도

2022

프로젝트 공고 서비스 문의 자주 묻는 질문 이용약관 개인정보처리방침

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)