논문 | 궁재하 교수 연구실 | 고려대학교 전기전자공학부

|궁재하 교수 연구실

홈

연구 영역

기본 정보

논문·특허

과제

구성원

논문

연구 성과 추이

표시된 성과는 수집된 데이터 기준으로 산출되며, 일부 차이가 있을 수 있습니다.

주요 논문

*2026년 기준 최근 6년 이내 논문에 한해 Impact Factor가 표기됩니다.

Article

인용수 0

2025

RIMIX: RISC-V Core with MIXed-Precision SIMD Instruction Extensions Supported by Oracle-Assisted Sub-Network Search for Efficient TinyML

Jiyong Park, Dahoon Park, Yeeun Hong, Jaeha Kung

딥러닝 모델의 크기가 커질수록 혼합정밀도 양자화(mixed-precision quantization)는 효율적인 압축 기법으로 자리 잡았다. 그러나 혼합정밀도 연산에 대한 MCU의 지원 부족은 tinyML 작업을 실행하는 데 있어 성능을 제한한다. 이 문제를 해결하기 위해 우리는 최소한의 하드웨어 오버헤드로 다양한 비트 조합을 지원하도록 설계된 RISC-V 코어 RIMIX를 제안한다. RIMIX는 최적화된 비트 패킹(bit packing) 메커니즘, 혼합정밀도 산술을 위해 맞춤화된 확장 ISA, 그리고 다중정밀도 연산을 수행할 수 있는 신경 유닛을 포함하며, Ibex 코어 대비 최대 28.6×의 속도 향상을 달성한다. RIMIX로 tinyML 처리를 위한 품질을 극대화하기 위해, 목표 제약 조건 하에서 최적화된 모델을 탐색하기 위한 오라클 기반 신경 아키텍처 탐색(neural architecture search)도 함께 제시한다. 탐색 과정을 가속하기 위해, 모델 토폴로지 탐색과 혼합정밀도 학습을 분리하는 새로운 2단계 접근법을 제안한다. 먼저 학습 없이 수행하는 NAS, 즉 혼합정밀도 학습을 위한 기반이 되는 고비트 최적화 네트워크를 사용하여 오라클 네트워크를 탐색한다. 오라클 아키텍처가 식별되면, 어떤 비트 조합에서도 잘 동작하도록 가중치 공유(weight sharing) 방식으로 모델을 증류(distill)한다. 또한 목표 제약 조건을 더 잘 만족시키기 위해 실제 RIMIX 명령 사이클을 고려하여 오라클 네트워크로부터 하위 네트워크를 선택하는 전략을 제안한다. 제안한 하위 네트워크 선택 방법은 기존의 BOPs 기반 탐색 방법보다 우수한 성능을 보인다. 마지막으로, 제안된 SW/HW 공동 설계(co-design) 방법은 Artix-7 FPGA 보드에서 기존의 최신(state-of-the-art) 방법과 비교하여 정확도 하락을 2% 미만으로 유지하면서도 tinyML 작업 실행에서 2.0× 더 빠른 실행을 가능하게 한다.

https://doi.org/10.1109/islped65674.2025.11261811

Speedup

Oracle

Artificial neural network

Field-programmable gate array

SIMD

Computation

Instruction set

Quantization (signal processing)

Article

인용수 1

2025

All-Rounder: A Flexible AI Accelerator With Diverse Data Format Support and Morphable Structure for Multi-DNN Processing

Seock-Hwan Noh, Seungpyo Lee, Banseok Shin, Sehun Park, Yongjoo Jang, Jaeha Kung

IF 3.1 (2025)

IEEE Transactions on Very Large Scale Integration (VLSI) Systems

인공지능(AI) 기반 애플리케이션의 사용이 급격히 증가함에 따라, 여러 산업 기업들이 맞춤형 애플리케이션 특화 집적회로(application-specific integrated circuits, ASICs) (예: Google TPU, IBM RaPiD, Intel NNP-I/NNP-T)를 개발하고, 이를 기반으로 초대규모(hyperscale) 클라우드 인프라를 구축하였다. 이러한 ASIC은 사용자로부터 요청되는 AI 모델의 추론 또는 학습 과정 연산을 수행한다. AI 모델은 서로 다른 데이터 형식과 연산 유형을 가지므로, ASIC은 다양한 데이터 형식과 여러 형태의 연산을 지원할 필요가 있다. 그러나 기존의 ASIC 솔루션은 이러한 요구를 충분히(또는 전혀) 충족하지 못한다. 이러한 제한을 극복하기 위해, 우리는 먼저 정수(INT) 및 부동소수점(FP) 데이터 유형 모두에 대해 다중 비트 폭을 지원하는 면적 효율적인 곱셈기인 all-in-one multiplier를 제안한다. 다음으로, 이들 곱셈기를 탑재한 다형식(multiformat) 지원의 곱셈-누산(multiply-and-accumulation, MAC) 배열을 구성한다. 또한, MAC 배열은 여러 블록으로 분할될 수 있으며, 이를 유연하게 결합하여 다양한 심층 신경망(deep neural network, DNN) 연산 유형을 지원할 수 있다. 제안한 MAC 배열의 실용적 유효성을 평가하기 위해, 이를 기반으로 All-rounder라는 이름의 가속기를 제작하여 평가한다. 평가 결과, 제안된 all-in-one multiplier는 각 데이터 형식별 전용 곱셈기를 사용하는 기준안(baseline)과 비교하여

1.49 \times

더 작은 면적을 차지한다. 이어서, 제안된 All-rounder의 성능과 에너지 효율을 서로 다른 세 가지 가속기와 비교한 결과, 속도 향상(speedup)은 일관되게 나타났으며, 시각(vision)부터 대형 언어 모델(large language model, LLM) 기반 언어 작업에 이르기까지 다양한 AI 벤치마크에서 더 높은 효율을 보였다.

https://doi.org/10.1109/tvlsi.2025.3540346

Computer science

Computer architecture

Computational science

Artificial intelligence

Article

인용수 1

2024

A Dual-Precision and Low-Power CNN Inference Engine Using a Heterogeneous Processing-in-Memory Architecture

Sangwoo Jung, Jaehyun Lee, Dahoon Park, Youngjoo Lee, Jong‐Hyeok Yoon, Jaeha Kung

IF 5.2 (2024)

IEEE Transactions on Circuits and Systems I Regular Papers

이 논문에서는 서로 다른 하드웨어 자원 제약에 적응할 수 있는 에너지-스케일러블(energy-scalable) CNN 모델을 제시한다. 구체적으로, 두 개의 독립적인 비트 정밀도 경로(INT4 및 삼진-이진)를 활용하는 이중 정밀도 네트워크인 DualNet을 제안한다. DualNet은 두 경로 간의 비율을 조정함으로써 높은 정확도와 낮은 복잡도를 동시에 달성한다. 또한 최적 비율에 대한 자동 탐색을 가능하게 하는 진화 알고리즘을 제시한다. 새로운 CNN 아키텍처 설계뿐 아니라, SRAM 및 eDRAM 기반 PIM을 통합하여 두 정밀도 경로를 병렬로 효율적으로 계산하는 이종 처리-내-메모리(heterogeneous processing-in-memory, PIM) 하드웨어를 개발한다. 이종 PIM에서 연산된 DualNet의 에너지 효율을 검증하기 위해, 28nm CMOS 기술로 테스트 칩을 시제품으로 제작하였다. 하드웨어 효율을 극대화하기 위해, 다중 PIM 배열에 대한 DualNet의 가장 효과적인 배치를 달성하는 향상된 데이터 매핑 방식을 활용한다. 제안하는 SW-HW 공동 최적화를 통해 실제 PIM 하드웨어에서 동작하는 DualNet 모델 중 가장 에너지 효율적인 모델을 얻을 수 있다. 단일 비트 정밀도를 사용하는 다른 양자화 네트워크와 비교하여, DualNet은 CIFAR-10/100 및 ImageNet 데이터셋에서 각각 평균 29.0%, 49.5%, 47.3%의 에너지 소비, 메모리 사용량(footprint), 지연(latency) 감소를 보인다.

https://doi.org/10.1109/tcsi.2024.3395842

Computer science

Dual (grammatical number)

Architecture

Inference engine

Inference

Computer architecture

Power (physics)

Parallel computing

Artificial intelligence

Article

인용수 2

2024

Skipformer: Evolving Beyond Blocks for Extensively Searching On-Device Language Models With Learnable Attention Window

Matthew Bodenham, Jaeha Kung

IF 3.6 (2024)

IEEE Access

자원 제약이 있는 엣지 디바이스에 언어 모델을 배치하는 일은 모델 크기가 계속 증가함에 따라 매우 어려운 과제이다. 언어 모델의 작업 전이 가능성(task transferability)은 엣지에 대한 배치를 매력적인 응용으로 만든다. 선행 연구인 신경 아키텍처 탐색(NAS)은 하드웨어 효율적인 트랜스포머를 산출해 왔으나, 효율적인 NAS를 위해 종종 일부 아키텍처적 특징을 간과한다. 본 연구는 이전에 탐색되지 않았던 트랜스포머 아키텍처를 탐색하도록 유도하기 위해, 크고 유연한 탐색 공간을 갖춘 새로운 진화적 NAS를 제안한다. 우리의 탐색 공간은 아키텍처의 깊이와 스킵 연결(skip connections)을 통해 아키텍처가 변하도록 하여, 아키텍처 내부 어디에서든 정보를 전달할 수 있게 한다. 가장 높은 탐색 결과를 보인 모델인 Skipformer는 이러한 새로운 아키텍처적 특징을 보여준다. Skipformer의 효율을 더욱 높이기 위해, 학습 동안 각 자기주의(self-attention) 계층에서 CUDA 가속 기반의 attention window 크기를 학습한다. Skipformer는 GPT-2 Small과 비교하여 GLEU 벤치마크에서 정확도 손실이 미미한 가운데, NVIDIA Jetson Nano에서 23.3%의 속도 향상과 19.2%의 메모리 사용량 감소를 달성한다.

https://doi.org/10.1109/access.2024.3420232

Computer science

Window (computing)

Artificial intelligence

Natural language processing

Theoretical computer science

World Wide Web

Article

인용수 14

2024

One-Spike SNN: Single-Spike Phase Coding With Base Manipulation for ANN-to-SNN Conversion Loss Minimization

Sangwoo Hwang, Jaeha Kung

IF 5.4 (2024)

IEEE Transactions on Emerging Topics in Computing

스파이킹 신경망(SNN)은 사건 기반(event-driven)이므로 기존 인공 신경망(ANN)보다 에너지 효율이 더 높다. 그러나 SNN은 이산적인 스파이크를 통해 데이터를 전달하기 때문에 학습에 그래디언트 방법을 적용하기가 어려워 정확도가 제한된다. SNN의 정확도를 ANN에 준하는 수준으로 유지하기 위해, 사전 학습된 ANNs를 SNN으로 변환(ANN-to-SNN 변환)한다. 이 변환 과정에서 ANN의 활성값을 SNN에서의 일련의 스파이크로 인코딩하는 일은 변환 손실을 최소화하는 데 중요하다. 본 연구에서는 SNN 계층 간 데이터 전송에 필요한 스파이크 수를 최소화하는 인코딩 방식으로 단일 스파이크 위상 코딩(single-spike phase coding)을 제안한다. 위상 코딩에서 단일 스파이크 근사로 인해 발생하는 인코딩 오차를 최소화하기 위해 임계값 이동(threshold shift)과 베이스 조작(base manipulation)을 제안한다. 제안된 변환 방법은 ANN에 대한 추가 재학습이나 아키텍처 제약 없이도, CIFAR 및 ImageNet 데이터셋을 사용하는 3개의 합성곱 신경망(CNN)에서 평균 0.58%의 추론 정확도 저하 없이 정확도를 유지함을 검증하였다. 또한 그래프 합성곱 신경망(GCN)도 SNN으로 성공적으로 변환되었으며, 평균 정확도 저하는 0.90%였다. 무엇보다도, 제안한 SNN의 에너지 효율은 ANN 기준선과 비교하여 4.6

\sim 17.3 \times

향상된다.

https://doi.org/10.1109/tetc.2024.3386893

Spike (software development)

Spiking neural network

Computer science

Minification

Coding (social sciences)

Algorithm

Artificial intelligence

Artificial neural network

Statistics

Mathematics

전체 논문

Article

인용수 0

2025

RIMIX: RISC-V Core with MIXed-Precision SIMD Instruction Extensions Supported by Oracle-Assisted Sub-Network Search for Efficient TinyML

Jiyong Park, Dahoon Park, Yeeun Hong, Jaeha Kung

https://doi.org/10.1109/islped65674.2025.11261811

Speedup

Oracle

Artificial neural network

Field-programmable gate array

SIMD

Computation

Instruction set

Quantization (signal processing)

Article

인용수 1

2025

All-Rounder: A Flexible AI Accelerator With Diverse Data Format Support and Morphable Structure for Multi-DNN Processing

Seock-Hwan Noh, Seungpyo Lee, Banseok Shin, Sehun Park, Yongjoo Jang, Jaeha Kung

IF 3.1 (2025)

IEEE Transactions on Very Large Scale Integration (VLSI) Systems

1.49 \times

https://doi.org/10.1109/tvlsi.2025.3540346

Computer science

Computer architecture

Computational science

Artificial intelligence

Article

인용수 1

2024

A Dual-Precision and Low-Power CNN Inference Engine Using a Heterogeneous Processing-in-Memory Architecture

Sangwoo Jung, Jaehyun Lee, Dahoon Park, Youngjoo Lee, Jong‐Hyeok Yoon, Jaeha Kung

IF 5.2 (2024)

IEEE Transactions on Circuits and Systems I Regular Papers

https://doi.org/10.1109/tcsi.2024.3395842

Computer science

Dual (grammatical number)

Architecture

Inference engine

Inference

Computer architecture

Power (physics)

Parallel computing

Artificial intelligence

Article

인용수 2

2024

Skipformer: Evolving Beyond Blocks for Extensively Searching On-Device Language Models With Learnable Attention Window

Matthew Bodenham, Jaeha Kung

IF 3.6 (2024)

IEEE Access

https://doi.org/10.1109/access.2024.3420232

Computer science

Window (computing)

Artificial intelligence

Natural language processing

Theoretical computer science

World Wide Web

Article

인용수 14

2024

One-Spike SNN: Single-Spike Phase Coding With Base Manipulation for ANN-to-SNN Conversion Loss Minimization

Sangwoo Hwang, Jaeha Kung

IF 5.4 (2024)

IEEE Transactions on Emerging Topics in Computing

\sim 17.3 \times

향상된다.

https://doi.org/10.1109/tetc.2024.3386893

Spike (software development)

Spiking neural network

Computer science

Minification

Coding (social sciences)

Algorithm

Artificial intelligence

Artificial neural network

Statistics

Mathematics

Preprint

인용수 0

2025

FlexNeRFer: A Multi-Dataflow, Adaptive Sparsity-Aware Accelerator for On-Device NeRF Rendering

Seock-Hwan Noh, Banseok Shin, Jeik Choi, Seungpyo Lee, Jaeha Kung, Yeseong Kim

ArXiv.org

3차원 뷰 재구성을 위한 AI 기반 접근법인 Neural Radiance Fields(NeRF)는 탁월한 성능을 보여 주었으며, 그 결과 다양한 분야에서 활발한 연구가 촉발되었다. 이에 따라 여러 고급 NeRF 모델이 등장했고, 온디바이스(on-device) 응용에서도 고도로 사실적인 장면 재구성을 위해 점차 NeRF를 채택하는 추세가 늘고 있다. 다양한 NeRF 모델의 출현과 함께, NeRF 기반 응용은 여러 NeRF 프레임워크를 활용하게 되었으며, 이를 효율적으로 지원할 수 있는 하드웨어의 필요성이 대두되었다. 그러나 기존 GPU는 이러한 온디바이스 응용이 요구하는 성능, 전력, 면적(PPA) 비용을 충족하지 못하거나 특정 NeRF 알고리즘에 특화되어 있어, 다른 NeRF 모델에 적용할 경우 효율이 낮아지는 문제가 발생한다. 이러한 한계를 해결하기 위해 본 연구에서는 에너지 효율적인 다목적 NeRF 가속기인 FlexNeRFer를 제안한다. FlexNeRFer의 향상을 가능하게 하는 핵심 구성 요소는 다음과 같다. i) 정밀도 스케일러블 MAC 어레이(정밀도 가변 MAC 배열)에서 다중 데이터플로우와 희소성을 지원하는 유연한 네트워크온칩(NoC), ii) 희소도 비율 및 정밀도 모드에 기반한 최적의 희소성 포맷을 이용한 효율적인 데이터 저장이다. FlexNeRFer의 효과를 평가하기 위해 28nm CMOS 기술을 사용하여 레이아웃 구현을 수행하였다. 평가 결과, FlexNeRFer는 GPU(즉, NVIDIA RTX 2080 Ti) 대비 에너지 효율에서 24.1~520.3배 향상을 보이면서 8.2~243.3배의 속도 향상을 달성하였다. 또한 최신형 NeRF 가속기(즉, NeuRex)와 비교해서는 에너지 효율에서 2.3~47.5배 향상을 보이면서 4.2~86.9배의 속도 향상을 입증하였다.

http://arxiv.org/abs/2505.06504

Speedup

Leverage (statistics)

Key (lock)

Efficient energy use

Range (aeronautics)

Rendering (computer graphics)

Article

인용수 0

2025

A Survey on Binary and Ternary Neural Networks and Their Realization in Compute-in-Memory for Edge Intelligence

Dahoon Park, Hyungdong Park, Inguk Yeo, Jiyun Kim, S.C. Lee, Suhak Lee, Hyunseob Shin, Sung-il Pae, Deliang Fan, Jaeha Kung, Kon‐Woo Kwon

IF 8.9 (2025)

IEEE Internet of Things Journal

딥러닝은 언어 모델링, 컴퓨터 비전, 추천 시스템, 로보틱스 등 광범위한 응용 분야에서 괄목할 만한 성과를 이뤘다. 그러나 모델의 크기가 점차 커지고 연산 요구가 증가함에 따라, 특히 자원이 제한된 기기에서는 상당한 과제가 제기되고 있다. 이러한 문제를 해결하기 위한 유망한 접근법 중 하나는 극단적 양자화(extreme quantization)이며, 이는 이진 및 삼진 신경망(binary and ternary neural networks)으로 대표된다. 이러한 기법은 가중치와 활성값을 각각 1 bit 또는 1.58 bits로 양자화함으로써 모델 크기를 크게 줄이는 동시에 연산을 단순화하여, 자원이 제한된 환경에서의 효율적인 배치에 적합하다. 본 논문은 극단적 양자화 기법에 대한 포괄적인 문헌 검토를 제시하며, 이를 세 가지 핵심 영역으로 구성한다. (1) 가중치만 양자화하는 경우(예: 이진 가중치 네트워크, 삼진 가중치 네트워크)와 가중치 및 활성값을 모두 양자화하는 경우(예: 이진 신경망, 삼진 신경망)를 비교 분석하고, 각 접근법의 진전과 상충관계를 논의한다. (2) 초기에는 합성곱 신경망에 적용되었던 극단적 양자화가 트랜스포머(Transformer) 아키텍처로 어떻게 확장되었는지를 고찰한다. (3) 이진화 및 삼진화에 최적화된 연산-메모리(compute-in-memory) 아키텍처에 대한 개요를 제공하며, 고급 비트-셀 기술을 기반으로 한 설계들을 포함한다.

https://doi.org/10.1109/jiot.2025.3633487

Artificial neural network

Binary number

Convolutional neural network

Ternary operation

Quantization (signal processing)

Realization (probability)

Deep learning

Binary classification

Article

인용수 0

2025

Dissecting and Re-Architecting 3D NAND Flash PIM Arrays for Efficient Single-Batch Token Generation in LLMS

Yongjoo Jang, Sangwoo Hwang, Hojin Lee, Sangwoo Jung, Donghun Lee, Wonbo Shim, Jaeha Kung

대규모 언어 모델의 발전은 수십억 개의 파라미터를 갖는 모델로 이어졌으며, 이에 따라 메모리와 연산 요구가 크게 증가하였다. 기존 하드웨어에서 이러한 모델을 서빙하는 것은 DRAM 용량의 제한과 높은 GPU 비용 때문에 도전적이다. 따라서 본 연구에서는 단일 배치 토큰 생성(single-batch token generation)을 3D NAND 플래시 처리-메모리(PIM) 장치로 오프로딩(offloading)하는 방안을 제안하고, 높은 저장 밀도를 활용하여 DRAM 용량의 한계를 극복하고자 한다. 우리는 3D NAND 플래시 구성들을 탐색하고, 최적의 지연시간과 셀 밀도를 위해 H-tree 네트워크를 갖춘 재구조화된 PIM 어레이를 제시한다. 또한 적절히 선택된 PIM 어레이 크기와 함께, LLM 계층을 위한 연산 타일링과 매핑 방법을 개발하여, vLLM을 사용하는 4대의 RTX4090 대비

2.4 \times

의 속도 향상을 달성하면서, 지연시간 오버헤드는 4.9%에 그치고 4대의 A100과 비교 가능한 성능을 확보하였다. 상세한 면적 분석 결과, 제안된 3D NAND 플래시 PIM 아키텍처는 추가적인 면적 오버헤드 없이 메모리 어레이 내에

4.98 mm^{2}

의 다이 면적 이내로 통합될 수 있음을 확인하였다.

https://doi.org/10.1109/iccd65941.2025.00040

NAND gate

Dram

Latency (audio)

Flash (photography)

Speedup

CAS latency

Article

인용수 1

2024

A 65nm 687.5-TOPS/W Drive Strength-based SRAM Compute-In-Memory Macro with Adaptive Dynamic Range for Edge AI applications

Dong-Gu Choi, Jaehyun Lee, Jahyun Koo, Woo Kyoung Han, Dahoon Park, Jaeha Kung, Junghyup Lee, Jong‐Hyeok Yoon

아날로그 컴퓨트 인 메모리(ACIM)는 더 나은 에너지 효율, 네트워크 정확도, 그리고 다양한 AI 모델과의 호환성을 추구하며 집중적으로 연구되어 왔다[1–5]. 특히 SRAM 기반 ACIM 매크로는 입력/가중치(IN/W) 배정을 비트 직렬 입력을 포함하도록 유연하게 구성하고, 여러 비트라인(BL)에 걸쳐 비트 단위 가중치를 로딩하며, 출력 라인(OL)에서 부분합의 디지털 시프트-앤-애드 곱셈(digital shift-and-add multiplication)인 부분합

P_{sum}

을 수행한다. 그러나 시프트-앤-애드 곱셈은 필연적으로 ACIM에서 장치 불일치 및 제한된 센싱 마진(SM) 하에 컴퓨팅/판독 과정에서 발생하는

Psum_{sum}

오차를 악화시킨다(그림 1). 그 결과 MAC 출력이 심각하게 잘못되며 상당한 정확도 손실이 발생하여, ACIM의 실용적 활용을 저해한다. Psum 오차를 완화하기 위해 고정밀 IN/W를 사용하고 MAC 출력에서 절단(truncation)을 수행하는 ACIM 매크로가 제안되었다[4]. 이러한 절단은 양자화 노이즈를 어느 정도 제거함으로써 완화된 정확도 손실을 달성한다. 그러나 선행 연구는 여전히 고해상도 ADC의 제한된

V_{LSB}

로 인해

P_{sum}

오차를 겪는다. 또한 절단된 MAC 출력은 ACIM 매크로에서 가중치 업데이트가 빈번하게 일어나는 고정밀 IN/W의 장점을 훼손한다. 대안적 접근으로,

P_{sum}

에 대해 양자화를 사용하는 저해상도 ADC를 활용하여 더 높은

V_{LSB}

를 확보하고 그에 따른

P_{sum}

오차를 억제하는 방법이 제시되었다[5]. 하지만 매크로 활용도가 높은 경우, 양자화 오차로 인해 결국 정확도 손실을 겪으며, 이 오차는 시프트 및 가산기에 의해 증폭된다. 이러한 문제를 해결하기 위해 구동 강도 기반 SRAM 컴퓨트 인 메모리(DS-CIM) 매크로가 제안되었으며, 이는 다음을 포함한다: 1) 2’s-complement 4b-IN/W ResNet-20 벤치마크에서 최대 39.2x 증폭된 센싱 마진과 97%의 오류 없는 Psum 판독을 보장하는 적응형 동적 범위를 갖춘 6b 구동 강도-모드 센싱, 2) OL마다 동시 ADC 판독을 가능하게 하면서 면적 효율이 15.83 TOPS

/ mm^{2}

인 행(row) 단위 적응형 동적 범위 SAR(ADR-SAR) 로직, 3) ResNet-20 벤치마크에서 평균 ADC 변환 사이클을 64% 감소시키는 입력 인지 이진 탐색(IABS), 그리고 4) 열(column) 단위 로직 재구성을 위한 이기종 로직 유닛(HLU).

https://doi.org/10.1109/a-sscc60305.2024.10848920

Static random-access memory

Macro

Enhanced Data Rates for GSM Evolution

Computer science

Range (aeronautics)

TOPS

Computer hardware

Engineering

Artificial intelligence

Mechanical engineering

Article

인용수 0

2022

SEMS: Scalable Embedding Memory System for Accelerating Embedding-Based DNNs

Sejin Kim, Jungwoo Kim, Yongjoo Jang, Jaeha Kung, Sungjin Lee

IF 2.3 (2022)

IEEE Computer Architecture Letters

다양한 딥러닝(DL) 응용에서 널리 사용되는 임베딩 레이어는 규모가 매우 크며, 그 크기는 계속 증가하고 있다. 우리는 대규모 임베딩 레이어를 갖는 DL 응용의 추론을 처리하기 위한 확장 가능한 임베딩 메모리 시스템(SEMS)을 제안한다. SEMS는 가속을 위한 FPGA를 포함하는 확장 가능한 임베딩 메모리(SEM) 모듈을 기반으로 구축된다. SEMS에서는 확장 가능하고 범용적인 PCIe 버스를 사용하여 시스템 메모리를 확장하며, SEM으로부터 호스트로 전송되는 데이터의 양을 줄이는 SEM의 처리는 PCIe의 유효 대역폭을 향상시킨다. 더 나은 성능을 달성하기 위해, 다양한 수준에서 여러 최적화 기법을 적용한다. 우리는 SEMS를 사용하는 데 편의를 제공하기 위한 Python 라이브러리인 SEMlib를 개발한다. 또한 SEMS의 개념 증명(proof-of-concept) 프로토타입을 구현하였으며, SEMS를 사용하면 전체 임베딩 레이어를 보유할 DRAM이 부족한 경우 CPU 기반 시스템에 비해 DLRM 실행 시간이

32.85 \times

더 빠르다.

https://doi.org/10.1109/lca.2022.3227560

PCI Express

Scalability

Embedding

Computer science

Dram

Parallel computing

Python (programming language)

Field-programmable gate array

Embedded system

Computer architecture

주요 논문

*2026년 기준 최근 6년 이내 논문에 한해 Impact Factor가 표기됩니다.

Article

인용수 0

2025

RIMIX: RISC-V Core with MIXed-Precision SIMD Instruction Extensions Supported by Oracle-Assisted Sub-Network Search for Efficient TinyML

Jiyong Park, Dahoon Park, Yeeun Hong, Jaeha Kung

https://doi.org/10.1109/islped65674.2025.11261811

Speedup

Oracle

Artificial neural network

Field-programmable gate array

SIMD

Computation

Instruction set

Quantization (signal processing)

Article

인용수 1

2025

All-Rounder: A Flexible AI Accelerator With Diverse Data Format Support and Morphable Structure for Multi-DNN Processing

Seock-Hwan Noh, Seungpyo Lee, Banseok Shin, Sehun Park, Yongjoo Jang, Jaeha Kung

IF 3.1 (2025)

IEEE Transactions on Very Large Scale Integration (VLSI) Systems

1.49 \times

https://doi.org/10.1109/tvlsi.2025.3540346

Computer science

Computer architecture

Computational science

Artificial intelligence

Article

인용수 1

2024

A Dual-Precision and Low-Power CNN Inference Engine Using a Heterogeneous Processing-in-Memory Architecture

Sangwoo Jung, Jaehyun Lee, Dahoon Park, Youngjoo Lee, Jong‐Hyeok Yoon, Jaeha Kung

IF 5.2 (2024)

IEEE Transactions on Circuits and Systems I Regular Papers

https://doi.org/10.1109/tcsi.2024.3395842

Computer science

Dual (grammatical number)

Architecture

Inference engine

Inference

Computer architecture

Power (physics)

Parallel computing

Artificial intelligence

Article

인용수 2

2024

Skipformer: Evolving Beyond Blocks for Extensively Searching On-Device Language Models With Learnable Attention Window

Matthew Bodenham, Jaeha Kung

IF 3.6 (2024)

IEEE Access

https://doi.org/10.1109/access.2024.3420232

Computer science

Window (computing)

Artificial intelligence

Natural language processing

Theoretical computer science

World Wide Web

Article

인용수 14

2024

One-Spike SNN: Single-Spike Phase Coding With Base Manipulation for ANN-to-SNN Conversion Loss Minimization

Sangwoo Hwang, Jaeha Kung

IF 5.4 (2024)

IEEE Transactions on Emerging Topics in Computing

\sim 17.3 \times

향상된다.

https://doi.org/10.1109/tetc.2024.3386893

Spike (software development)

Spiking neural network

Computer science

Minification

Coding (social sciences)

Algorithm

Artificial intelligence

Artificial neural network

Statistics

Mathematics

전체 논문

Article

인용수 0

2025

RIMIX: RISC-V Core with MIXed-Precision SIMD Instruction Extensions Supported by Oracle-Assisted Sub-Network Search for Efficient TinyML

Jiyong Park, Dahoon Park, Yeeun Hong, Jaeha Kung

https://doi.org/10.1109/islped65674.2025.11261811

Speedup

Oracle

Artificial neural network

Field-programmable gate array

SIMD

Computation

Instruction set

Quantization (signal processing)

Article

인용수 1

2025

All-Rounder: A Flexible AI Accelerator With Diverse Data Format Support and Morphable Structure for Multi-DNN Processing

Seock-Hwan Noh, Seungpyo Lee, Banseok Shin, Sehun Park, Yongjoo Jang, Jaeha Kung

IF 3.1 (2025)

IEEE Transactions on Very Large Scale Integration (VLSI) Systems

1.49 \times

https://doi.org/10.1109/tvlsi.2025.3540346

Computer science

Computer architecture

Computational science

Artificial intelligence

Article

인용수 1

2024

A Dual-Precision and Low-Power CNN Inference Engine Using a Heterogeneous Processing-in-Memory Architecture

Sangwoo Jung, Jaehyun Lee, Dahoon Park, Youngjoo Lee, Jong‐Hyeok Yoon, Jaeha Kung

IF 5.2 (2024)

IEEE Transactions on Circuits and Systems I Regular Papers

https://doi.org/10.1109/tcsi.2024.3395842

Computer science

Dual (grammatical number)

Architecture

Inference engine

Inference

Computer architecture

Power (physics)

Parallel computing

Artificial intelligence

Article

인용수 2

2024

Skipformer: Evolving Beyond Blocks for Extensively Searching On-Device Language Models With Learnable Attention Window

Matthew Bodenham, Jaeha Kung

IF 3.6 (2024)

IEEE Access

https://doi.org/10.1109/access.2024.3420232

Computer science

Window (computing)

Artificial intelligence

Natural language processing

Theoretical computer science

World Wide Web

Article

인용수 14

2024

One-Spike SNN: Single-Spike Phase Coding With Base Manipulation for ANN-to-SNN Conversion Loss Minimization

Sangwoo Hwang, Jaeha Kung

IF 5.4 (2024)

IEEE Transactions on Emerging Topics in Computing

\sim 17.3 \times

향상된다.

https://doi.org/10.1109/tetc.2024.3386893

Spike (software development)

Spiking neural network

Computer science

Minification

Coding (social sciences)

Algorithm

Artificial intelligence

Artificial neural network

Statistics

Mathematics

Preprint

인용수 0

2025

FlexNeRFer: A Multi-Dataflow, Adaptive Sparsity-Aware Accelerator for On-Device NeRF Rendering

Seock-Hwan Noh, Banseok Shin, Jeik Choi, Seungpyo Lee, Jaeha Kung, Yeseong Kim

ArXiv.org

http://arxiv.org/abs/2505.06504

Speedup

Leverage (statistics)

Key (lock)

Efficient energy use

Range (aeronautics)

Rendering (computer graphics)

Article

인용수 0

2025

A Survey on Binary and Ternary Neural Networks and Their Realization in Compute-in-Memory for Edge Intelligence

Dahoon Park, Hyungdong Park, Inguk Yeo, Jiyun Kim, S.C. Lee, Suhak Lee, Hyunseob Shin, Sung-il Pae, Deliang Fan, Jaeha Kung, Kon‐Woo Kwon

IF 8.9 (2025)

IEEE Internet of Things Journal

https://doi.org/10.1109/jiot.2025.3633487

Artificial neural network

Binary number

Convolutional neural network

Ternary operation

Quantization (signal processing)

Realization (probability)

Deep learning

Binary classification

Article

인용수 0

2025

Dissecting and Re-Architecting 3D NAND Flash PIM Arrays for Efficient Single-Batch Token Generation in LLMS

Yongjoo Jang, Sangwoo Hwang, Hojin Lee, Sangwoo Jung, Donghun Lee, Wonbo Shim, Jaeha Kung

2.4 \times

4.98 mm^{2}

의 다이 면적 이내로 통합될 수 있음을 확인하였다.

https://doi.org/10.1109/iccd65941.2025.00040

NAND gate

Dram

Latency (audio)

Flash (photography)

Speedup

CAS latency

Article

인용수 1

2024

A 65nm 687.5-TOPS/W Drive Strength-based SRAM Compute-In-Memory Macro with Adaptive Dynamic Range for Edge AI applications

Dong-Gu Choi, Jaehyun Lee, Jahyun Koo, Woo Kyoung Han, Dahoon Park, Jaeha Kung, Junghyup Lee, Jong‐Hyeok Yoon

P_{sum}

을 수행한다. 그러나 시프트-앤-애드 곱셈은 필연적으로 ACIM에서 장치 불일치 및 제한된 센싱 마진(SM) 하에 컴퓨팅/판독 과정에서 발생하는

Psum_{sum}

V_{LSB}

로 인해

P_{sum}

오차를 겪는다. 또한 절단된 MAC 출력은 ACIM 매크로에서 가중치 업데이트가 빈번하게 일어나는 고정밀 IN/W의 장점을 훼손한다. 대안적 접근으로,

P_{sum}

에 대해 양자화를 사용하는 저해상도 ADC를 활용하여 더 높은

V_{LSB}

를 확보하고 그에 따른

P_{sum}

/ mm^{2}

https://doi.org/10.1109/a-sscc60305.2024.10848920

Static random-access memory

Macro

Enhanced Data Rates for GSM Evolution

Computer science

Range (aeronautics)

TOPS

Computer hardware

Engineering

Artificial intelligence

Mechanical engineering

Article

인용수 0

2022

SEMS: Scalable Embedding Memory System for Accelerating Embedding-Based DNNs

Sejin Kim, Jungwoo Kim, Yongjoo Jang, Jaeha Kung, Sungjin Lee

IF 2.3 (2022)

IEEE Computer Architecture Letters

32.85 \times

더 빠르다.

https://doi.org/10.1109/lca.2022.3227560

PCI Express

Scalability

Embedding

Computer science

Dram

Parallel computing

Python (programming language)

Field-programmable gate array

Embedded system

Computer architecture