프로젝트 소개
본 과제는 GPU에서 ML/DL 연산이 느려지는 원인을 데이터 지역성과 메모리 사용 방식에서 찾고, instruction 수행 스케줄링과 데이터 사전 배치를 통해 수행 시간과 메모리 효율을 높이는 연구임. 별도 코드 수정이나 GPU 증설 없이 워크로드 처리 성능을 개선하고, GPU stall time 감소와 utilization 향상을 함께 노리는 과제임.
연구 목표는 GPU 내부 연산 흐름을 미리 분석해 지역성이 맞는 데이터는 같은 GPU에 배치하고, 다음 연산에 필요한 데이터를 사전에 메모리에 올려 대기 시간을 줄이는 데 있음. 1차년도에는 스케줄링 로그와 Darshan log 기반 모니터링 툴을 구현하고, 2차년도에는 Multi-GPU 환경용 스케줄러를 개발하며, 3차년도에는 Tensorflow, Pytorch 및 Federated Learning에 적용해 성능을 검증하는 계획임. 기대 효과는 실제 프레임워크에 바로 적용 가능한 코드 확보, ML/DL 워크로드의 비용 절감, 국내 GPU 분석 및 개발 기술 향상임.