신경망 가속기(예: TPU)는 컴퓨팅 시스템에서 주류 기기로 자리 잡았다. 그러나 유감스럽게도 기존의 신경망 가속기 기반 시스템은 제한된 유연성으로 인해 가속 기회를 충분히 활용하지 못한다. 구체적으로, 대부분의 가속기는 신경망의 계산 집약적 연산(예: 합성곱 및 완전연결 계층)에만 초점을 맞춘다. 하지만 우리는 임베딩 및 압축과 같은 보조 연산을 차선적으로 처리할 경우 정확도, 학습 속도, 그리고 새로운 도메인에 대한 적응성 측면에서 비의미하지 않은 손실이 발생할 수 있음을 확인하였다. 최근의 신경망 발전이 종종 보조 연산에서 비롯된다는 점을 고려하면 이러한 문제는 지속된다. 빠르게 진화하는 보조 연산을 효과적으로 처리하고 가속 기회를 극대화하기 위해, 우리는 이질적 컴퓨팅 장치를 활용하는 포괄적 신경망 가속 시스템인 DLS를 제안한다. 핵심 아이디어는 최대 성능을 위해 계산 집약적 연산은 고도로 특화된 ASIC에 분배하고, 보조 연산은 보다 유연한 장치(예: FPGA, GPU)에 분배하는 것이다. 서로 다른 장치의 단순한 통합은 높은 통신 오버헤드로 인해 높은 성능을 제공하지 못함을 강조한다. 이러한 통신 비효율을 해결하기 위해, 우리는 직접 장치 간 통신과 세분화된 연산 스케줄링을 활용하는 효율적인 FPGA 기반 장치 오케스트레이션을 제안한다. 이를 통해 본 시스템은 값비싼 커널 스택 순회(expensive kernel stack traversal)를 제거하고 계산 연산 유닛과 통신 링크를 병렬로 활용함으로써 이질적 장치 간의 통신 오버헤드를 완화한다. 새롭게 부상하는 보조 연산을 포함하는 인기 신경망을 사용한 평가는, 본 시스템이 단일 가속기 학습부터 분산 학습(2.6–8.9× 속도 향상)에 이르기까지 다양한 경우에서 유연성과 높은 성능을 모두 달성함을 보여준다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.