주요 논문
5
*2026년 기준 최근 6년 이내 논문에 한해 Impact Factor가 표기됩니다.
1
Article
|
·
인용수 0
·
2025RIMIX: RISC-V Core with MIXed-Precision SIMD Instruction Extensions Supported by Oracle-Assisted Sub-Network Search for Efficient TinyML
Jiyong Park, Dahoon Park, Yeeun Hong, Jaeha Kung
딥러닝 모델의 크기가 커질수록 혼합정밀도 양자화(mixed-precision quantization)는 효율적인 압축 기법으로 자리 잡았다. 그러나 혼합정밀도 연산에 대한 MCU의 지원 부족은 tinyML 작업을 실행하는 데 있어 성능을 제한한다. 이 문제를 해결하기 위해 우리는 최소한의 하드웨어 오버헤드로 다양한 비트 조합을 지원하도록 설계된 RISC-V 코어 RIMIX를 제안한다. RIMIX는 최적화된 비트 패킹(bit packing) 메커니즘, 혼합정밀도 산술을 위해 맞춤화된 확장 ISA, 그리고 다중정밀도 연산을 수행할 수 있는 신경 유닛을 포함하며, Ibex 코어 대비 최대 28.6×의 속도 향상을 달성한다. RIMIX로 tinyML 처리를 위한 품질을 극대화하기 위해, 목표 제약 조건 하에서 최적화된 모델을 탐색하기 위한 오라클 기반 신경 아키텍처 탐색(neural architecture search)도 함께 제시한다. 탐색 과정을 가속하기 위해, 모델 토폴로지 탐색과 혼합정밀도 학습을 분리하는 새로운 2단계 접근법을 제안한다. 먼저 학습 없이 수행하는 NAS, 즉 혼합정밀도 학습을 위한 기반이 되는 고비트 최적화 네트워크를 사용하여 오라클 네트워크를 탐색한다. 오라클 아키텍처가 식별되면, 어떤 비트 조합에서도 잘 동작하도록 가중치 공유(weight sharing) 방식으로 모델을 증류(distill)한다. 또한 목표 제약 조건을 더 잘 만족시키기 위해 실제 RIMIX 명령 사이클을 고려하여 오라클 네트워크로부터 하위 네트워크를 선택하는 전략을 제안한다. 제안한 하위 네트워크 선택 방법은 기존의 BOPs 기반 탐색 방법보다 우수한 성능을 보인다. 마지막으로, 제안된 SW/HW 공동 설계(co-design) 방법은 Artix-7 FPGA 보드에서 기존의 최신(state-of-the-art) 방법과 비교하여 정확도 하락을 2% 미만으로 유지하면서도 tinyML 작업 실행에서 2.0× 더 빠른 실행을 가능하게 한다.
https://doi.org/10.1109/islped65674.2025.11261811
Speedup
Oracle
Artificial neural network
Field-programmable gate array
SIMD
Computation
Instruction set
Quantization (signal processing)
2
Article
|
·
인용수 1
·
2025All-Rounder: A Flexible AI Accelerator With Diverse Data Format Support and Morphable Structure for Multi-DNN Processing
Seock-Hwan Noh, Seungpyo Lee, Banseok Shin, Sehun Park, Yongjoo Jang, Jaeha Kung
IF 3.1 (2025)
IEEE Transactions on Very Large Scale Integration (VLSI) Systems
인공지능(AI) 기반 애플리케이션의 사용이 급격히 증가함에 따라, 여러 산업 기업들이 맞춤형 애플리케이션 특화 집적회로(application-specific integrated circuits, ASICs) (예: Google TPU, IBM RaPiD, Intel NNP-I/NNP-T)를 개발하고, 이를 기반으로 초대규모(hyperscale) 클라우드 인프라를 구축하였다. 이러한 ASIC은 사용자로부터 요청되는 AI 모델의 추론 또는 학습 과정 연산을 수행한다. AI 모델은 서로 다른 데이터 형식과 연산 유형을 가지므로, ASIC은 다양한 데이터 형식과 여러 형태의 연산을 지원할 필요가 있다. 그러나 기존의 ASIC 솔루션은 이러한 요구를 충분히(또는 전혀) 충족하지 못한다. 이러한 제한을 극복하기 위해, 우리는 먼저 정수(INT) 및 부동소수점(FP) 데이터 유형 모두에 대해 다중 비트 폭을 지원하는 면적 효율적인 곱셈기인 all-in-one multiplier를 제안한다. 다음으로, 이들 곱셈기를 탑재한 다형식(multiformat) 지원의 곱셈-누산(multiply-and-accumulation, MAC) 배열을 구성한다. 또한, MAC 배열은 여러 블록으로 분할될 수 있으며, 이를 유연하게 결합하여 다양한 심층 신경망(deep neural network, DNN) 연산 유형을 지원할 수 있다. 제안한 MAC 배열의 실용적 유효성을 평가하기 위해, 이를 기반으로 All-rounder라는 이름의 가속기를 제작하여 평가한다. 평가 결과, 제안된 all-in-one multiplier는 각 데이터 형식별 전용 곱셈기를 사용하는 기준안(baseline)과 비교하여 더 작은 면적을 차지한다. 이어서, 제안된 All-rounder의 성능과 에너지 효율을 서로 다른 세 가지 가속기와 비교한 결과, 속도 향상(speedup)은 일관되게 나타났으며, 시각(vision)부터 대형 언어 모델(large language model, LLM) 기반 언어 작업에 이르기까지 다양한 AI 벤치마크에서 더 높은 효율을 보였다.
https://doi.org/10.1109/tvlsi.2025.3540346
Computer science
Computer architecture
Computational science
Artificial intelligence
3
Article
|
·
인용수 1
·
2024A Dual-Precision and Low-Power CNN Inference Engine Using a Heterogeneous Processing-in-Memory Architecture
Sangwoo Jung, Jaehyun Lee, Dahoon Park, Youngjoo Lee, Jong‐Hyeok Yoon, Jaeha Kung
IF 5.2 (2024)
IEEE Transactions on Circuits and Systems I Regular Papers
이 논문에서는 서로 다른 하드웨어 자원 제약에 적응할 수 있는 에너지-스케일러블(energy-scalable) CNN 모델을 제시한다. 구체적으로, 두 개의 독립적인 비트 정밀도 경로(INT4 및 삼진-이진)를 활용하는 이중 정밀도 네트워크인 DualNet을 제안한다. DualNet은 두 경로 간의 비율을 조정함으로써 높은 정확도와 낮은 복잡도를 동시에 달성한다. 또한 최적 비율에 대한 자동 탐색을 가능하게 하는 진화 알고리즘을 제시한다. 새로운 CNN 아키텍처 설계뿐 아니라, SRAM 및 eDRAM 기반 PIM을 통합하여 두 정밀도 경로를 병렬로 효율적으로 계산하는 이종 처리-내-메모리(heterogeneous processing-in-memory, PIM) 하드웨어를 개발한다. 이종 PIM에서 연산된 DualNet의 에너지 효율을 검증하기 위해, 28nm CMOS 기술로 테스트 칩을 시제품으로 제작하였다. 하드웨어 효율을 극대화하기 위해, 다중 PIM 배열에 대한 DualNet의 가장 효과적인 배치를 달성하는 향상된 데이터 매핑 방식을 활용한다. 제안하는 SW-HW 공동 최적화를 통해 실제 PIM 하드웨어에서 동작하는 DualNet 모델 중 가장 에너지 효율적인 모델을 얻을 수 있다. 단일 비트 정밀도를 사용하는 다른 양자화 네트워크와 비교하여, DualNet은 CIFAR-10/100 및 ImageNet 데이터셋에서 각각 평균 29.0%, 49.5%, 47.3%의 에너지 소비, 메모리 사용량(footprint), 지연(latency) 감소를 보인다.
https://doi.org/10.1109/tcsi.2024.3395842
Computer science
Dual (grammatical number)
Architecture
Inference engine
Inference
Computer architecture
Power (physics)
Parallel computing
Artificial intelligence
4
Article
|
인용수 2
·
2024Skipformer: Evolving Beyond Blocks for Extensively Searching On-Device Language Models With Learnable Attention Window
Matthew Bodenham, Jaeha Kung
IF 3.6 (2024)
IEEE Access
자원 제약이 있는 엣지 디바이스에 언어 모델을 배치하는 일은 모델 크기가 계속 증가함에 따라 매우 어려운 과제이다. 언어 모델의 작업 전이 가능성(task transferability)은 엣지에 대한 배치를 매력적인 응용으로 만든다. 선행 연구인 신경 아키텍처 탐색(NAS)은 하드웨어 효율적인 트랜스포머를 산출해 왔으나, 효율적인 NAS를 위해 종종 일부 아키텍처적 특징을 간과한다. 본 연구는 이전에 탐색되지 않았던 트랜스포머 아키텍처를 탐색하도록 유도하기 위해, 크고 유연한 탐색 공간을 갖춘 새로운 진화적 NAS를 제안한다. 우리의 탐색 공간은 아키텍처의 깊이와 스킵 연결(skip connections)을 통해 아키텍처가 변하도록 하여, 아키텍처 내부 어디에서든 정보를 전달할 수 있게 한다. 가장 높은 탐색 결과를 보인 모델인 Skipformer는 이러한 새로운 아키텍처적 특징을 보여준다. Skipformer의 효율을 더욱 높이기 위해, 학습 동안 각 자기주의(self-attention) 계층에서 CUDA 가속 기반의 attention window 크기를 학습한다. Skipformer는 GPT-2 Small과 비교하여 GLEU 벤치마크에서 정확도 손실이 미미한 가운데, NVIDIA Jetson Nano에서 23.3%의 속도 향상과 19.2%의 메모리 사용량 감소를 달성한다.
https://doi.org/10.1109/access.2024.3420232
Computer science
Window (computing)
Artificial intelligence
Natural language processing
Theoretical computer science
World Wide Web
5
Article
|
·
인용수 14
·
2024One-Spike SNN: Single-Spike Phase Coding With Base Manipulation for ANN-to-SNN Conversion Loss Minimization
Sangwoo Hwang, Jaeha Kung
IF 5.4 (2024)
IEEE Transactions on Emerging Topics in Computing
스파이킹 신경망(SNN)은 사건 기반(event-driven)이므로 기존 인공 신경망(ANN)보다 에너지 효율이 더 높다. 그러나 SNN은 이산적인 스파이크를 통해 데이터를 전달하기 때문에 학습에 그래디언트 방법을 적용하기가 어려워 정확도가 제한된다. SNN의 정확도를 ANN에 준하는 수준으로 유지하기 위해, 사전 학습된 ANNs를 SNN으로 변환(ANN-to-SNN 변환)한다. 이 변환 과정에서 ANN의 활성값을 SNN에서의 일련의 스파이크로 인코딩하는 일은 변환 손실을 최소화하는 데 중요하다. 본 연구에서는 SNN 계층 간 데이터 전송에 필요한 스파이크 수를 최소화하는 인코딩 방식으로 단일 스파이크 위상 코딩(single-spike phase coding)을 제안한다. 위상 코딩에서 단일 스파이크 근사로 인해 발생하는 인코딩 오차를 최소화하기 위해 임계값 이동(threshold shift)과 베이스 조작(base manipulation)을 제안한다. 제안된 변환 방법은 ANN에 대한 추가 재학습이나 아키텍처 제약 없이도, CIFAR 및 ImageNet 데이터셋을 사용하는 3개의 합성곱 신경망(CNN)에서 평균 0.58%의 추론 정확도 저하 없이 정확도를 유지함을 검증하였다. 또한 그래프 합성곱 신경망(GCN)도 SNN으로 성공적으로 변환되었으며, 평균 정확도 저하는 0.90%였다. 무엇보다도, 제안한 SNN의 에너지 효율은 ANN 기준선과 비교하여 4.6 향상된다.
https://doi.org/10.1109/tetc.2024.3386893
Spike (software development)
Spiking neural network
Computer science
Minification
Coding (social sciences)
Algorithm
Artificial intelligence
Artificial neural network
Statistics
Mathematics