연구 영역
기본 정보
논문·특허
과제
구성원
읽는 시간 · 1분 23초

GPU 메모리·자원 제약 하 DNN 학습/서빙 최적화

DNN Training/Serving Optimization Under GPU Memory and Resource Constraints

연구 내용

GPU 메모리 한계를 넘는 DNN 학습과 다중 모델 서빙을 위해 마이크로배치 처리, 그라디언트 기반 성능 유지, 데이터로더 파라미터 튜닝, 메모리 오버라이트 캐싱을 결합해 효율을 확보하는 연구

본 분야는 GPU 메모리 제약으로 인해 대형 배치 학습과 다중 모델 동시 서빙이 제한되는 문제를 다룹니다. 남는 메모리에 맞춘 마이크로배치 처리와 그라디언트 누적 기반 정규화로 학습 성능을 유지하는 방법을 제안합니다. 또한 GPU 메모리를 일괄 텐서로 초기화하고, 사용하지 않는 영역을 탐색해 메모리 오버라이트 방식으로 모델 파라미터를 캐싱함으로써 단일 GPU 내 처리량을 높입니다. 데이터로더의 워커 수와 프리패치 파라미터를 자동 튜닝해 학습 파이프라인의 병목도 함께 완화하는 차별성을 보유합니다.

관련 연구 성과

관련 논문

3

관련 특허

0

관련 프로젝트

2

연구 흐름

초기에는 데이터로더 파라미터(워커 수, 프리패치)를 탐색하여 딥러닝 학습에서의 데이터 전송 병목을 줄이는 자동 튜닝 연구를 수행했습니다. 이후 2023년에는 시스템 메모리 상한을 초과하는 큰 배치 학습을 위해 마이크로배치 처리로 메모리 적합성을 확보하고, 그라디언트 누적 기반 정규화로 성능 저하를 제어했습니다. 2024년에는 GPU 메모리 관리 기반 모델 서빙 시스템을 통해 다중 추론 모델이 공유 가능한 캐싱 공간을 구성하고, 메모리 충돌 없이 병렬 실행되도록 설계를 확장했습니다. 동시에 2024~2025년에는 서버리스 컴퓨팅과 통합 개발 프레임워크 관점에서 배포·탑재 환경의 자원 효율을 목표로 연구를 이어가고 있습니다.

활용 가능성

활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.

  • 단일 GPU 다중 DNN 서빙
  • 메모리 상한 초과 학습 파이프라인
  • 서버리스 기반 거대모델 실행
  • 데이터로더 자동 성능 튜닝
  • 자원 할당 기반 작업 스케줄링
  • 이기종 분산 환경 모델 배치
  • 전력·성능 균형 최적화
  • 서비스 지연 QoS 최적화
  • 모델 파라미터 캐싱/로드 제어
  • 대규모 모델 업데이트 배포 자동화

관련 논문

구분

제목

1

Enabling Large Batch Size Training for DNN Models Beyond the Memory Limit While Maintaining Performance

2

GMM: An Efficient GPU Memory Management-based Model Serving System for Multiple DNN Inference Models

3

Dataloader Parameter Tuner: An Automated Dataloader Parameter Tuner for Deep Learning Models

관련 프로젝트

구분

제목

1

거대 모델을 위한 서버리스 컴퓨팅을 이용한 리소스 효율적인 모델 서빙 연구

2

신경망 응용 자동생성 및 실행환경 최적화 배포를 지원하는 통합개발 프레임워크 기술개발