GPU 메모리·자원 제약 하 DNN 학습/서빙 최적화

DNN Training/Serving Optimization Under GPU Memory and Resource Constraints

연구 내용

GPU 메모리 한계를 넘는 DNN 학습과 다중 모델 서빙을 위해 마이크로배치 처리, 그라디언트 기반 성능 유지, 데이터로더 파라미터 튜닝, 메모리 오버라이트 캐싱을 결합해 효율을 확보하는 연구

본 분야는 GPU 메모리 제약으로 인해 대형 배치 학습과 다중 모델 동시 서빙이 제한되는 문제를 다룹니다. 남는 메모리에 맞춘 마이크로배치 처리와 그라디언트 누적 기반 정규화로 학습 성능을 유지하는 방법을 제안합니다. 또한 GPU 메모리를 일괄 텐서로 초기화하고, 사용하지 않는 영역을 탐색해 메모리 오버라이트 방식으로 모델 파라미터를 캐싱함으로써 단일 GPU 내 처리량을 높입니다. 데이터로더의 워커 수와 프리패치 파라미터를 자동 튜닝해 학습 파이프라인의 병목도 함께 완화하는 차별성을 보유합니다.

관련 프로젝트

2건

연구 흐름

초기에는 데이터로더 파라미터(워커 수, 프리패치)를 탐색하여 딥러닝 학습에서의 데이터 전송 병목을 줄이는 자동 튜닝 연구를 수행했습니다. 이후 2023년에는 시스템 메모리 상한을 초과하는 큰 배치 학습을 위해 마이크로배치 처리로 메모리 적합성을 확보하고, 그라디언트 누적 기반 정규화로 성능 저하를 제어했습니다. 2024년에는 GPU 메모리 관리 기반 모델 서빙 시스템을 통해 다중 추론 모델이 공유 가능한 캐싱 공간을 구성하고, 메모리 충돌 없이 병렬 실행되도록 설계를 확장했습니다. 동시에 2024~2025년에는 서버리스 컴퓨팅과 통합 개발 프레임워크 관점에서 배포·탑재 환경의 자원 효율을 목표로 연구를 이어가고 있습니다.

활용 가능성

활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.

단일 GPU 다중 DNN 서빙
메모리 상한 초과 학습 파이프라인
서버리스 기반 거대모델 실행
데이터로더 자동 성능 튜닝
자원 할당 기반 작업 스케줄링
이기종 분산 환경 모델 배치
전력·성능 균형 최적화
서비스 지연 QoS 최적화
모델 파라미터 캐싱/로드 제어
대규모 모델 업데이트 배포 자동화