모바일 애플리케이션에서의 딥 신경망(DNN) 추론 도입이 빠르게 확산됨에 따라, 제약된 기기 성능을 고려할 때 다양한 DNN 작업의 지연(latency) 요구사항을 충족하기 위한 엣지 보조 추론의 필요성이 강조된다. 그러나 광범위한 배치는 셀룰러 네트워크가 공유 자원을 기반으로 운영되면서 상향링크, 연산, 하향링크 단계 전반에서 동시 작업들이 경쟁하게 되는 특성으로 인해 지연이 신뢰성 있게 보장되지 못한다는 점 때문에 여전히 저해되고 있다. 여러 접근법이 제안되었음에도 불구하고, 그것들은 주로 특정 작업(예: 비디오 분석)을 대상으로 하며, 상향링크 중심 설계로 인해 다양한 DNN 작업을 지원하지 못한다. 본 논문은 RAN과 엣지 서버 간의 종단 간(end-to-end) 조정을 통해 지연이 매우 중요한 DNN 추론 요청을 처리하는 시스템 CORA를 제시한다. CORA는 각 DNN 작업의 특성에 따라 단계별 지연 예산(latency budget)을 동적으로 조정함으로써, 각 단계에서의 경합을 완화하기 위해 무선(radio) 및 연산(compute) 도메인 간의 자원 요구를 균형 있게 맞춘다. 그리고 이러한 단계별 예산에 맞추어 자원 스케줄러를 정렬함으로써, 종단 간 조정을 가능하게 하되 종단 호스트(end host)의 수정은 요구하지 않는다. 우리는 다양한 DNN 작업을 포함하는 over-the-air 테스트베드에서 CORA를 프로토타입으로 구현하고 평가한다. 그 결과 CORA는 지연 목표 내에서 3.2배 더 많은 요청을 처리하며, 기준선 대비 95번째 백분위(latency) 지연을 2.1배 감소시킨다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.