AI의 빠른 발전은 엣지 디바이스에서의 학습을 위해 효율적인 가속기를 요구하지만, 이러한 환경은 부동소수점 연산의 높은 하드웨어 비용과 관련된 문제에 자주 직면한다. 이를 해결하기 위해 block floating-point(BFP)에 영감을 받은 효율적인 부동소수점 포맷들, 예컨대 Microsoft Floating Point(MSFP)와 FlexBlock(FB) 등이 등장하고 있다. 그러나 지수(exponent)를 블록 내에서 공유하기 때문에, 블록 내부에서 더 작은 크기의 값에 대해서는 동적 범위와 정밀도가 제한된다. 이로 인해 BFP는 다양한 데이터셋으로 심층 신경망(DNN)을 학습하는 데에 제약이 따른다. 본 논문에서는 전통적인 부동소수점 포맷의 한계를 해결하기 위해 층별 산술 연산과 데이터 경로 정밀도 사이의 균형을 맞추도록, 정밀도를 체계적으로 감소시키고 하이브리드 정밀도 전략을 구현하도록 설계된 하이브리드 정밀도(HPFP) 선택 알고리즘을 제안한다. HPFP는 데이터 비트 폭을 줄임으로써 사이클당 메모리에서 더 많은 읽기/쓰기 연산을 가능하게 하여, 오프칩 데이터 접근과 온칩 메모리의 크기를 감소시킨다. BFP를 부분합 계산에 사용한 뒤 그 부분합을 32비트 부동소수점(FP32)으로 누적하는 전통적인 감정밀 포맷과 달리, HPFP는 모든 곱셈 및 누적 연산을 감정밀 부동소수점 포맷에서 수행함으로써 유의미한 하드웨어 절감 효과를 이끈다. 평가를 위해 YOLOv2-Tiny 모델을 대상으로 두 가지 학습 가속기를 개발하였고, 서로 다른 혼합 정밀도 전략을 적용한 뒤, 16비트 conventional brain floating point(Bfloat16)를 사용하는 가속기와 성능을 벤치마킹하였다. HPFP 선택은 모든 층의 데이터 경로에 10비트를 사용하고, 낮은 정밀도가 필요한 층의 산술에도 10비트를 적용하며, 더 높은 정밀도가 필요한 층에는 12비트를 적용한다. 그 결과 에너지 소비는 49.4% 감소하고 메모리 접근은 37.5% 줄어든다. 또한 Bfloat16 기반 가속기와 비교했을 때 평균 정밀도(mAP)가 0.8%만 미미하게 저하되는 것으로 달성된다. 이러한 비교는 HPFP 기반 제안 가속기가, 정확도를 희생하지 않으면서도 컴팩트하고 저전력 가속기를 설계하는 효율적인 접근이 될 수 있음을 보여준다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.