신경망(NN) 가속기의 비용 효율성을 극대화하기 위해, 아키텍트들은 다수의 NN을 동시에 실행할 수 있는 단일 칩 가속기를 적극적으로 개발하고 있다. 그러나 기존 접근법은 공간 또는 시간 자원 공유(SS 또는 TS)만을 활용함으로써 성능 잠재력을 충분히 달성하지 못한다. 또한 성능에 중대한 영향을 미칠 수 있는 메모리 관리에 대해서도 고려하지 않는다. 이러한 한계는 신중한 메모리 관리를 통해 두 가지 기회를 모두 활용하는 새로운 다중-NN 가속기의 절실한 필요로 이어진다. 다만, 이상적인 공간-시간 공유 가속기를 설계하는 일은 극도로 어렵다. 그 이유는 (1) 대규모 탐색 공간에서 SS/TS의 정도를 결정하는 알고리즘, (2) 다양한 설계 지점을 갖도록 고안된 새로운 STS 지원(accelerator), (3) 재구성 시 수많은 데이터 전송 과정에서 자원 경합을 최소화하는 세심하게 설계된 메모리 관리가 필요하기 때문이다. 이를 위해 본 연구에서는 빠르고 유연한 다중-NN 실행 아키텍처인 STfusion을 제안한다. 첫째, STfusion은 가속기를 여러 개의 더 작은 TS 지원 가속기로 분할한다. 둘째, STfusion은 가속기 크기를 조정하기 위해 소형 가속기들을 동적으로 결합한다. 셋째, STfusion은 지연 없는 데이터 전송을 위해 온칩 버퍼를 페이지 단위(granularity)로 관리한다. 마지막으로 STfusion은 QoS 목표를 만족하면서 높은 처리량을 달성하기 위한 SS/TS의 정도를 결정하는 알고리즘을 제공한다. 평가 결과, STfusion은 최신의 다중-NN 가속기에 비해 유의미하게 더 높은 성능을 보인다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.