Enabling Large Batch Size Training for DNN Models Beyond the Memory Limit While Maintaining Performance | 김종국 교수 연구실 | 고려대학교 전기전자공학부

|김종국 교수 연구실

홈

연구 영역

기본 정보

논문·특허

과제

구성원

Article|

인용수 13

·2023

Enabling Large Batch Size Training for DNN Models Beyond the Memory Limit While Maintaining Performance

XinYu Piao, DoangJoo Synn, Jooyoung Park, Jong‐Kook Kim

IF 3.4 (2023) IEEE Access

초록

최근의 딥러닝 모델은 큰 배치 크기로 학습하기가 어렵다. 이는 보급형 기기가 모델과 큰 데이터 배치 크기를 모두 수용할 만큼의 충분한 메모리를 갖추지 못할 수 있기 때문이다. 배치 크기는 학습 모델에서 사용되는 하이퍼파라미터 중 하나이며, 배치 크기는 모델을 업로드한 뒤 남는 메모리에만 들어갈 수 있으므로 대상 기기의 메모리 용량에 의존하고 그 범위 내에서 제한된다. 또한 데이터 항목의 크기도 중요한 요인인데, 각 데이터 항목의 크기가 커질수록 남은 메모리에 들어갈 수 있는 배치 크기는 더 작아지기 때문이다. 본 논문은 이러한 문제를 해결하기 위한 Micro-Batch Processing (MBP) 방법을 제안한다. 이 방법은 하나의 배치를 남은 메모리에 들어갈 수 있는 크기로 분할한 뒤 이를 순차적으로 처리하는 배치 처리 방식을 제공함으로써 딥러닝 모델의 학습을 돕는다. 소형 배치를 각각 처리한 후, 성능을 유지하기 위해 그라디언트 누적(gradient accumulation)을 기반으로 한 손실 정규화 알고리즘을 사용한다. 본 방법의 목적은 메모리 크기를 증가시키거나 다수의 장치(GPUs)를 사용하지 않고도, 시스템의 메모리 용량을 초과하는 더 큰 배치 크기로 딥러닝 모델을 학습할 수 있게 하는 것이다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

Computer scienceBatch processingNormalization (sociology)Artificial intelligence

타입

Article

IF / 인용수

3.4 / 13

원문

https://doi.org/10.1109/access.2023.3312572

게재 연도

2023