RnDCircle Logo
궁재하 연구실
고려대학교 전기전자공학부 궁재하 교수
프로세싱 인 메모리
3D NAND PIM
혼합정밀도 연산
연구 영역
기본 정보
논문·특허
과제
구성원

궁재하 연구실

고려대학교 전기전자공학부 궁재하 교수

궁재하 연구실은 인공지능 하드웨어 설계를 전제로 프로세싱 인 메모리(PIM)와 3D 집적 구조를 기반으로 DNN 추론의 데이터 이동과 지연을 줄이는 연구를 수행합니다. SRAM·eDRAM 또는 3D NAND flash 아키텍처에서 연산 타일링과 데이터 매핑을 최적화하고, 테스트칩 및 구조 분석을 통해 효율을 검증합니다. 또한 mixed-precision과 가변 데이터 형식을 지원하기 위해 곱셈기·MAC 배열 구조를 설계하고, RISC-V 기반 SIMD 확장과 SW/HW 코디자인으로 엣지 실행을 최적화합니다. 더불어 ANN-to-SNN 변환 손실을 낮추는 인코딩 기법을 연구하고, 최소침습 인공지능 전자뇌 및 생체 신호 복원으로 응용을 확장합니다.

프로세싱 인 메모리3D NAND PIM혼합정밀도 연산AI 가속기MAC 어레이
대표 연구 분야
연구 영역 전체보기
프로세싱 인 메모리(PIM) 기반 3D 집적 인공지능 가속기 thumbnail
프로세싱 인 메모리(PIM) 기반 3D 집적 인공지능 가속기
3D Integrated Processing-in-Memory (PIM) AI Accelerators
연구 분야 상세보기
연구 성과 추이
표시된 성과는 수집된 데이터 기준으로 산출되며, 일부 차이가 있을 수 있습니다.
주요 논문
5
논문 전체보기
1
Article
|
·
인용수 0
·
2025
RIMIX: RISC-V Core with MIXed-Precision SIMD Instruction Extensions Supported by Oracle-Assisted Sub-Network Search for Efficient TinyML
Jiyong Park, Dahoon Park, Yeeun Hong, Jaeha Kung
딥러닝 모델의 크기가 커질수록 혼합정밀도 양자화(mixed-precision quantization)는 효율적인 압축 기법으로 자리 잡았다. 그러나 혼합정밀도 연산에 대한 MCU의 지원 부족은 tinyML 작업을 실행하는 데 있어 성능을 제한한다. 이 문제를 해결하기 위해 우리는 최소한의 하드웨어 오버헤드로 다양한 비트 조합을 지원하도록 설계된 RISC-V 코어 RIMIX를 제안한다. RIMIX는 최적화된 비트 패킹(bit packing) 메커니즘, 혼합정밀도 산술을 위해 맞춤화된 확장 ISA, 그리고 다중정밀도 연산을 수행할 수 있는 신경 유닛을 포함하며, Ibex 코어 대비 최대 28.6×의 속도 향상을 달성한다. RIMIX로 tinyML 처리를 위한 품질을 극대화하기 위해, 목표 제약 조건 하에서 최적화된 모델을 탐색하기 위한 오라클 기반 신경 아키텍처 탐색(neural architecture search)도 함께 제시한다. 탐색 과정을 가속하기 위해, 모델 토폴로지 탐색과 혼합정밀도 학습을 분리하는 새로운 2단계 접근법을 제안한다. 먼저 학습 없이 수행하는 NAS, 즉 혼합정밀도 학습을 위한 기반이 되는 고비트 최적화 네트워크를 사용하여 오라클 네트워크를 탐색한다. 오라클 아키텍처가 식별되면, 어떤 비트 조합에서도 잘 동작하도록 가중치 공유(weight sharing) 방식으로 모델을 증류(distill)한다. 또한 목표 제약 조건을 더 잘 만족시키기 위해 실제 RIMIX 명령 사이클을 고려하여 오라클 네트워크로부터 하위 네트워크를 선택하는 전략을 제안한다. 제안한 하위 네트워크 선택 방법은 기존의 BOPs 기반 탐색 방법보다 우수한 성능을 보인다. 마지막으로, 제안된 SW/HW 공동 설계(co-design) 방법은 Artix-7 FPGA 보드에서 기존의 최신(state-of-the-art) 방법과 비교하여 정확도 하락을 2% 미만으로 유지하면서도 tinyML 작업 실행에서 2.0× 더 빠른 실행을 가능하게 한다.
https://doi.org/10.1109/islped65674.2025.11261811
Speedup
Oracle
Artificial neural network
Field-programmable gate array
SIMD
Computation
Instruction set
Quantization (signal processing)
2
Article
|
·
인용수 1
·
2025
All-Rounder: A Flexible AI Accelerator With Diverse Data Format Support and Morphable Structure for Multi-DNN Processing
Seock-Hwan Noh, Seungpyo Lee, Banseok Shin, Sehun Park, Yongjoo Jang, Jaeha Kung
IF 3.1 (2025)
IEEE Transactions on Very Large Scale Integration (VLSI) Systems
인공지능(AI) 기반 애플리케이션의 사용이 급격히 증가함에 따라, 여러 산업 기업들이 맞춤형 애플리케이션 특화 집적회로(application-specific integrated circuits, ASICs) (예: Google TPU, IBM RaPiD, Intel NNP-I/NNP-T)를 개발하고, 이를 기반으로 초대규모(hyperscale) 클라우드 인프라를 구축하였다. 이러한 ASIC은 사용자로부터 요청되는 AI 모델의 추론 또는 학습 과정 연산을 수행한다. AI 모델은 서로 다른 데이터 형식과 연산 유형을 가지므로, ASIC은 다양한 데이터 형식과 여러 형태의 연산을 지원할 필요가 있다. 그러나 기존의 ASIC 솔루션은 이러한 요구를 충분히(또는 전혀) 충족하지 못한다. 이러한 제한을 극복하기 위해, 우리는 먼저 정수(INT) 및 부동소수점(FP) 데이터 유형 모두에 대해 다중 비트 폭을 지원하는 면적 효율적인 곱셈기인 all-in-one multiplier를 제안한다. 다음으로, 이들 곱셈기를 탑재한 다형식(multiformat) 지원의 곱셈-누산(multiply-and-accumulation, MAC) 배열을 구성한다. 또한, MAC 배열은 여러 블록으로 분할될 수 있으며, 이를 유연하게 결합하여 다양한 심층 신경망(deep neural network, DNN) 연산 유형을 지원할 수 있다. 제안한 MAC 배열의 실용적 유효성을 평가하기 위해, 이를 기반으로 All-rounder라는 이름의 가속기를 제작하여 평가한다. 평가 결과, 제안된 all-in-one multiplier는 각 데이터 형식별 전용 곱셈기를 사용하는 기준안(baseline)과 비교하여 더 작은 면적을 차지한다. 이어서, 제안된 All-rounder의 성능과 에너지 효율을 서로 다른 세 가지 가속기와 비교한 결과, 속도 향상(speedup)은 일관되게 나타났으며, 시각(vision)부터 대형 언어 모델(large language model, LLM) 기반 언어 작업에 이르기까지 다양한 AI 벤치마크에서 더 높은 효율을 보였다.
https://doi.org/10.1109/tvlsi.2025.3540346
Computer science
Computer architecture
Computational science
Artificial intelligence
3
Article
|
·
인용수 1
·
2024
A Dual-Precision and Low-Power CNN Inference Engine Using a Heterogeneous Processing-in-Memory Architecture
Sangwoo Jung, Jaehyun Lee, Dahoon Park, Youngjoo Lee, Jong‐Hyeok Yoon, Jaeha Kung
IF 5.2 (2024)
IEEE Transactions on Circuits and Systems I Regular Papers
이 논문에서는 서로 다른 하드웨어 자원 제약에 적응할 수 있는 에너지-스케일러블(energy-scalable) CNN 모델을 제시한다. 구체적으로, 두 개의 독립적인 비트 정밀도 경로(INT4 및 삼진-이진)를 활용하는 이중 정밀도 네트워크인 DualNet을 제안한다. DualNet은 두 경로 간의 비율을 조정함으로써 높은 정확도와 낮은 복잡도를 동시에 달성한다. 또한 최적 비율에 대한 자동 탐색을 가능하게 하는 진화 알고리즘을 제시한다. 새로운 CNN 아키텍처 설계뿐 아니라, SRAM 및 eDRAM 기반 PIM을 통합하여 두 정밀도 경로를 병렬로 효율적으로 계산하는 이종 처리-내-메모리(heterogeneous processing-in-memory, PIM) 하드웨어를 개발한다. 이종 PIM에서 연산된 DualNet의 에너지 효율을 검증하기 위해, 28nm CMOS 기술로 테스트 칩을 시제품으로 제작하였다. 하드웨어 효율을 극대화하기 위해, 다중 PIM 배열에 대한 DualNet의 가장 효과적인 배치를 달성하는 향상된 데이터 매핑 방식을 활용한다. 제안하는 SW-HW 공동 최적화를 통해 실제 PIM 하드웨어에서 동작하는 DualNet 모델 중 가장 에너지 효율적인 모델을 얻을 수 있다. 단일 비트 정밀도를 사용하는 다른 양자화 네트워크와 비교하여, DualNet은 CIFAR-10/100 및 ImageNet 데이터셋에서 각각 평균 29.0%, 49.5%, 47.3%의 에너지 소비, 메모리 사용량(footprint), 지연(latency) 감소를 보인다.
https://doi.org/10.1109/tcsi.2024.3395842
Computer science
Dual (grammatical number)
Architecture
Inference engine
Inference
Computer architecture
Power (physics)
Parallel computing
Artificial intelligence
최신 정부 과제
15
과제 전체보기
1
2023년 3월-2025년 12월
|859,000,000
CMOS 공정호환 강유전체 트랜지스터 기반 초고효율 3D Vertical 컴퓨팅-인-메모리 집적 플랫폼 개발
강유전체 기반 다양한 어레이 구조 활용 고성능/고집적 CIM 기술 개발
강유전체
컴퓨팅-인-메모리
3D 구조
3단자 메모리
시뮬레이션 프레임워크
2
주관|
2023년 3월-2025년 12월
|750,000,000
CMOS 공정호환 강유전체 트랜지스터 기반 초고효율 3D Vertical 컴퓨팅-인-메모리 집적 플랫폼 개발
[1차년도] o 3D 강유전체 메모리 단위소자 개발 및 어레이 구조 설계 - 3D 강유전체 메모리 단위 소자 동작 특성 최적화 및 어레이 구조 설계 - 강유전체-산화물 반도체 채널을 조합한 3D 구조 o 시뮬레이션을 활용한 3D 어레이 구조 연구 - 정확한 SPICE 모델을 이용하여 다양한 3D 강유전체 메모리 어레이 구조 탐색 - 기존 시뮬레이터 framework를 멀티레벨 동작으로 확장하여 CIM 동작이 검증 및 IP 구조 확보 o 3D 구조 시뮬레이션 framework 구축 - 강유전체 트랜지스터의 측정 데이터 기반 SPICE 모델 자동 생성 소프트웨어 개발 - 강유전체 소자의 SPICE 모델을 이용한 어레이 동작 시뮬레이션 framework 구축 - 강유전체 기반의 다양한 CIM 아키텍처 및 3D 구조의 강유전체 CIM 아키텍처 동작 평가 시뮬레이션 framework 구축 o 고성능, 고집적 3D 어레이 구조 개발 - MAC과 CAM 연산을 위한 고성능, 고집적 3D 어레이 구조 개발 - SPICE 소자 모델 기반 어레이 구조 탐색 - 다양한 어레이 모델에 따른 성능 도출 및 비교 평가 - 멀티레벨 동작시 CIM 연산 효율 및 정확도 평가 수행 - CIM 동작을 위한 SoC 프로세서, 버스, 인터페이스 등의 기본 IP확보 [2차년도] o 3D 강유전체 메모리 어레이 제작 - 강유전체-산화물 반도체 채널 소자를 이용한 3D 강유전체 메모리 어레이 제작 - 3D 강유전체 메모리 어레이 인터페이스 회로 설계 및 구현 o 3D 강유전체 메모리 어레이 동작 방식 개발 - 3D 강유전체 메모리 어레이 인터페이스 회로 설계 및 구현 - Sensing 오차 최소화 및 cell 어레이의 구조에 최적화된 알고리즘 및 연산자 연구 - 전기적 분석법을 통한 강유전체-산화물 반도체 채널 동작 원리 이해 및 신뢰성 개선 o 고성능 고집적 3D 강유전체 메모리 어레이 인터페이스 회로 (driver, readout 회로 등) 설계 및 구현 - Reconfigurable한 인터페이스 회로의 구조 설계 제시 - 인터페이스 회로의 schematic 시뮬레이션 및 설계 - 인터페이스 회로의 layout 설계 - 인터에이스 회로의 성능 평가 (소모 전력, 전압 구동 범위, 전압 분해능 등) - 인터페이스 회로 칩 제작 - 인터페이스 회로의 핵심 아날로그 셀의 layout 자동생성 소프트웨어 개발 o 매핑 알고리즘 개발 - 다양한 매핑 알고리즘을 지원하는 시뮬레이션 framework 구축 - 3D 구조의 강유전체 CIM에 최적화되어 에너지 효율을 극대화하는 매핑 알고리즘 개발 [3차년도 (최종)] o 3D FeNAND, FeAND, FeNOR 프로토타입 구현 - Full-chip 형태의 3D FeNAND, FeAND, FeNOR 어레이 제작 및 특성 평가 - 3D 강유전체 메모리 어레이 프로토타입 실험 및 결과 분석 - 아날로그 layout 자동생성 소프트웨어를 이용한 인터페이스 회로의 최적 설계 제시 o 3D cell 어레이 기반 CIM 개발 - Cell 특성에 최적화된 초정밀/고효율 알고리즘 설계 및 벤치마크 - 3D cell 어레이 기반 CIM 동작 실증을 위한 digital SoC 프로토타입 설계 o CIM 구조 개발 및 시뮬레이션 framework 구축 - MAC과 CAM 연산을 모두 지원하여 연산 목적에 따라 동작 과정이 변경 가능한 3D 강유전체 기반 CIM 구조 개발 - 3D 구조의 강유전체 CIM을 위한 다양한 CAM 시뮬레이션 framework 구축 o 3D CIM 구동 프로토타입 개발 및 데모 - 제작된 인터페이스 칩의 프로토타입 검증 - 3D 강유전체 CIM 및 인터페이스 회로 칩의 이종집적 프로토타입 구현 - 3D CIM 어레이와 인터페이스가 연동된 프로토타입 구현 및 CIM 동작 (MAC & CAM) 검증을 위한 인터페이스 동작 검증
강유전체
컴퓨팅-인-메모리
3D 구조
3단자 메모리
시뮬레이션 프레임워크
3
2023년 3월-2026년 12월
|1,308,500,000
IoT Intelligence용 eFLASH 파운드리 공정 기반 MPU/Connectivity/경량 신경망 통합 반도체 개발
1. eNAND PIM기반 지능형 ECG 신호처리 가속기 및 컴파일러 개발* 최종 결과물: ECG 신호 처리 AFE, eNAND PIM 및 BLE 통합 단일칩(SIP)* 핵심 기능: 단일칩 내부에서 환자의 ECG 신호를 분석하여, 세부 증상을 파악하고, 이를 의료진에게 전달 및 실시간 모니터링을 지원(SW와의 연동을 위한 SW-HW 컴파일러 제공)* 주요 ...
프로세싱-인-메모리
임베디드 낸드 플래쉬
지능형 반도체
컴파일러
인-스토리지 연산
최신 특허
특허 전체보기
상태출원연도과제명출원번호상세정보
공개2024단일 스파이크 위상 코딩을 이용한 신경망 변환 방법1020240121897
등록2024MAC 어레이 및 이를 포함하는 하드웨어 가속기1020240031559
등록2024다양한 정밀도 및 자료형을 지원하는 곱셈기 및 이의 동작 방법1020240031558
전체 특허

단일 스파이크 위상 코딩을 이용한 신경망 변환 방법

상태
공개
출원연도
2024
출원번호
1020240121897

MAC 어레이 및 이를 포함하는 하드웨어 가속기

상태
등록
출원연도
2024
출원번호
1020240031559

다양한 정밀도 및 자료형을 지원하는 곱셈기 및 이의 동작 방법

상태
등록
출원연도
2024
출원번호
1020240031558