범용 GPU(GPGPU)는 심층 자연 네트워크 모델의 확산을 가속하는 것을 포함하여 다양한 분야에서 활용되고 있으나, 그 효과적인 구현을 위한 추가 연구가 필요하다. 최근 인기를 얻고 있는 연산 통합 장치 아키텍처(compute unified device architecture, CUDA)를 사용할 때의 상황은 GPU와 그 메모리 공간을 활용하는 경우와 유사하다. 이는 CUDA GPU 병렬 연산을 위해 가장 효율적인 접근법을 선택하는 데 필요한 표준(gold standard)이 부재하기 때문이다. 반대로, 최소 절대 수축 및 선택 연산자(least absolute shrinkage and selection operator, LASSO) 회귀를 해결하는 과정은 전적으로 기본 선형대수 연산으로 구성되므로, 다른 모델들에 비해 GPGPU를 이용한 계산이 더 효과적이다. 또한 그 최적화 문제는 종종 빠르고 효율적인 계산을 요구한다. 본 연구의 목적은 LASSO에 대한 CUDA GPU 병렬 연산의 구현 접근법을 간략히 소개하고, GPU 병렬 연산의 계산 효율을 LASSO를 위한 빠른 반복적 수축-임계( shrinkage-thresholding ) 알고리즘과 수치적으로 비교하는 데 있다. 본 연구는 계산 효율과 구현 용이성을 모두 고려하여 CUDA GPU 병렬 연산을 위한 표준을 제공하는 데 기여한다. 비교 결과에 근거하여, 반복 알고리즘에 대해 동적 링크 라이브러리 또는 PyTorch를 사용하여 Python으로 CUDA GPU 병렬 연산을 구현할 것을 권장한다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.