Xilinx Deep Learning Processing Unit(DPU)와 같은 전용 하드웨어에서는 신경망 모델의 이론적 효율이 실제 성능으로 그대로 이어지지 않는 경우가 흔하다. 본 연구는 탐색적 사례 연구를 통해 DPU 아키텍처에 경량 모델을 적응시키기 위한 하드웨어-소프트웨어 공동 설계 방법론을 조사한다. 우리는 ERFNet 및 ESNet의 인코더를 DPU에 친화적인 MobileNetV2로 교체하고, Xilinx Kria KV260 플랫폼에서 성능을 평가하였다. 이러한 공동 설계 전략은 ERFNet의 DPU 단독 추론 처리량을 2.14배(9.05에서 19.36 FPS로) 향상시켰으나, 전처리 및 후처리를 포함한 종단 간 시스템 처리량은 약 0.35 FPS 수준에서 정체된 상태를 유지하였다. 이러한 결과는 성능 제약이 DPU 하드웨어에서 CPU에 의존적인 소프트웨어 루틴으로 이동하는 이른바 ‘병목 전환(bottleneck shift)’을 뒷받침하는 실증적 근거를 제공한다. 본 연구 결과는 임베디드 AI 시스템에서 진정한 실시간 성능을 달성하기 위해서는 신경망 가속기뿐 아니라 전체 파이프라인에 대한 통합적 최적화가 필요함을 강조한다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.