최근의 딥러닝 모델은 큰 배치 크기로 학습하기가 어렵다. 이는 보급형 기기가 모델과 큰 데이터 배치 크기를 모두 수용할 만큼의 충분한 메모리를 갖추지 못할 수 있기 때문이다. 배치 크기는 학습 모델에서 사용되는 하이퍼파라미터 중 하나이며, 배치 크기는 모델을 업로드한 뒤 남는 메모리에만 들어갈 수 있으므로 대상 기기의 메모리 용량에 의존하고 그 범위 내에서 제한된다. 또한 데이터 항목의 크기도 중요한 요인인데, 각 데이터 항목의 크기가 커질수록 남은 메모리에 들어갈 수 있는 배치 크기는 더 작아지기 때문이다. 본 논문은 이러한 문제를 해결하기 위한 Micro-Batch Processing (MBP) 방법을 제안한다. 이 방법은 하나의 배치를 남은 메모리에 들어갈 수 있는 크기로 분할한 뒤 이를 순차적으로 처리하는 배치 처리 방식을 제공함으로써 딥러닝 모델의 학습을 돕는다. 소형 배치를 각각 처리한 후, 성능을 유지하기 위해 그라디언트 누적(gradient accumulation)을 기반으로 한 손실 정규화 알고리즘을 사용한다. 본 방법의 목적은 메모리 크기를 증가시키거나 다수의 장치(GPUs)를 사용하지 않고도, 시스템의 메모리 용량을 초과하는 더 큰 배치 크기로 딥러닝 모델을 학습할 수 있게 하는 것이다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.