연구 영역
기본 정보
논문·특허
과제
구성원
Article|
·
인용수 0
·2025
RIMIX: RISC-V Core with MIXed-Precision SIMD Instruction Extensions Supported by Oracle-Assisted Sub-Network Search for Efficient TinyML
Jiyong Park, Dahoon Park, Yeeun Hong, Jaeha Kung
초록

딥러닝 모델의 크기가 커질수록 혼합정밀도 양자화(mixed-precision quantization)는 효율적인 압축 기법으로 자리 잡았다. 그러나 혼합정밀도 연산에 대한 MCU의 지원 부족은 tinyML 작업을 실행하는 데 있어 성능을 제한한다. 이 문제를 해결하기 위해 우리는 최소한의 하드웨어 오버헤드로 다양한 비트 조합을 지원하도록 설계된 RISC-V 코어 RIMIX를 제안한다. RIMIX는 최적화된 비트 패킹(bit packing) 메커니즘, 혼합정밀도 산술을 위해 맞춤화된 확장 ISA, 그리고 다중정밀도 연산을 수행할 수 있는 신경 유닛을 포함하며, Ibex 코어 대비 최대 28.6×의 속도 향상을 달성한다. RIMIX로 tinyML 처리를 위한 품질을 극대화하기 위해, 목표 제약 조건 하에서 최적화된 모델을 탐색하기 위한 오라클 기반 신경 아키텍처 탐색(neural architecture search)도 함께 제시한다. 탐색 과정을 가속하기 위해, 모델 토폴로지 탐색과 혼합정밀도 학습을 분리하는 새로운 2단계 접근법을 제안한다. 먼저 학습 없이 수행하는 NAS, 즉 혼합정밀도 학습을 위한 기반이 되는 고비트 최적화 네트워크를 사용하여 오라클 네트워크를 탐색한다. 오라클 아키텍처가 식별되면, 어떤 비트 조합에서도 잘 동작하도록 가중치 공유(weight sharing) 방식으로 모델을 증류(distill)한다. 또한 목표 제약 조건을 더 잘 만족시키기 위해 실제 RIMIX 명령 사이클을 고려하여 오라클 네트워크로부터 하위 네트워크를 선택하는 전략을 제안한다. 제안한 하위 네트워크 선택 방법은 기존의 BOPs 기반 탐색 방법보다 우수한 성능을 보인다. 마지막으로, 제안된 SW/HW 공동 설계(co-design) 방법은 Artix-7 FPGA 보드에서 기존의 최신(state-of-the-art) 방법과 비교하여 정확도 하락을 2% 미만으로 유지하면서도 tinyML 작업 실행에서 2.0× 더 빠른 실행을 가능하게 한다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드
SpeedupOracleArtificial neural networkField-programmable gate arraySIMDComputationInstruction setQuantization (signal processing)
타입
Article
IF / 인용수
- / 0
게재 연도
2025