온디바이스 딥 신경망(DNN) 추론은 사용자 경험과 프라이버시 측면에서 종종 바람직하다. 기존의 솔루션들은 추론 지연 시간을 최소화하기 위해 자원을 충분히 활용해 왔다. 그러나 이러한 방식은 서비스 구간에 필요한 시간보다 훨씬 일찍 DNN 추론을 완료함으로써 심각한 에너지 비효율을 초래한다. 이는 정해진 시간에 맞추면서도 에너지 효율적으로 DNN 추론을 수행하는 방법이라는 새로운 과제를 제기한다. 이 과제를 해결하기 위해, 우리는 DNN 처리에 대한 새로운 자원 할당 전략인 punctual laziness를 제안하며, 이는 엄격한 지연 제약 내에서 작업 부하를 가능한 한 효율적으로 시간에 분산시키는 방식이다. 이 전략은 DNN이 지연 시간과 에너지 소모가 예측 가능한 일련의 인기 연산자들로 구성된다는 점에서 특히 신경 워크로드에 유리하다. 이러한 이해를 바탕으로, 우리는 그 연산자들을 고려한 연산자-인식(operator-aware) 코어 및 메모리 주파수 스케일링 프레임워크인 NeuroBalancer를 제안하여, 적절한 추론 시점을 보장하면서도 해당 주파수들을 가능한 한 효율적으로 균형 있게 조정한다. 우리는 상용(시판) 안드로이드 기기에서 여러 최신 DNN 모델로 NeuroBalancer를 구현하고 평가한다. 그 결과, NeuroBalancer는 주어진 추론 지연 요구사항을 성공적으로 충족하면서, CPU와 GPU에서 각각 안드로이드의 기본 governor 대비 최대 43.9% 및 21.1%까지, 그리고 CPU와 GPU에서 각각 최신 모바일 governor인 SysScale 대비 최대 42.1% 및 18.6%까지 에너지 소모를 절감함을 보여준다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.