에지 디바이스에서의 딥러닝 기반 모델은 다양한 AI 응용을 처리할 수 있는 유망한 수단으로서 상당한 주목을 받아 왔다. 그러나 연산 및 메모리 제약으로 인해, 에지 디바이스에서 효율적인 추론을 수행하면서 딥러닝 모델을 프로덕션 환경에 배치하는 일은 여전히 어려운 과제이다. 본 논문은 Jetson Xavier NX로 구동되는 서비스 로봇 GuardBot을 위한 프레임워크를 제안하고, 에지 디바이스에서 실시간 추론을 수행하는 최적화된 안면 마스크 인식 애플리케이션의 실제 환경 사례 연구를 제시한다. 이 프레임워크는 로봇이 사람들이 마스크를 착용하고 있는지 여부를 감지하여 COVID-19에 대한 방어를 돕고, 마스크를 착용하라는 공손한 음성 알림을 제공한다. 우리의 프레임워크는 합성곱 신경망(convolutional neural networks)에 기반한 이중 단계 아키텍처로 구성되며, 세 가지 주요 모듈을 사용한다: (1) 얼굴 검출을 위한 MTCNN, (2) 안면 마스크 분류를 위한 제안된 CNN 모델 및 Inception-v3, VGG16, denseNet121, resNet50, NASNetMobile, XceptionNet, MobileNet-v2의 일곱 가지 전이학습 기반 커스텀 모델, (3) Jetson Xavier NX에서 추론 속도를 향상시키기 위해 모든 모델을 최적화하는 TensorRT이다. 본 연구는 초당 프레임 수(frames per second), 실행 시간, 초당 이미지(images per second)를 기준으로 모델들의 성능에 대해 여러 가지 분석을 수행한다. 또한 정확도(accuracy), 정밀도(precision), 재현율(recall) 및 & F1-score를 평가하고, 처리량이 높고 지연이 낮다는 점에 중점을 두어 최적화 전후 모든 모델을 비교한다. 마지막으로, 이 프레임워크는 순찰(patrolling) 및 비순찰(non-patrolling) 모드로 실외와 다층 실내 환경 모두에서 실험을 수행하기 위해 모바일 로봇에 배치된다. 다른 최신(state-of-the-art) 모델들과 비교할 때, 분류 기반 안면 마스크 인식을 위한 제안된 CNN 모델은 학습, 검증 및 테스트 데이터셋에서 각각 94.5%, 95.9%, 94.28%의 정확도를 달성하며 이는 MobileNet-v2, Xception 및 InceptionNet-v3보다 우수하다. 또한 다양한 정밀도 수준에서 최적화 이후에는 모든 다른 모델들보다 최고 처리량과 최저 지연을 함께 달성한다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.