RnDCircle Logo
김선욱 연구실
고려대학교 전기전자공학부 김선욱 교수
Processing-in-Memory
인메모리 연산
DRAM 표준 인터페이스
연구 영역
기본 정보
논문·특허
과제
구성원

김선욱 연구실

고려대학교 전기전자공학부 김선욱 교수

김선욱 연구실은 DRAM 내부 또는 인접에서 DNN 연산을 수행하는 Processing-in-Memory(PIM) 기술을 중심으로 표준 DRAM 인터페이스 호환 실행, all-bank 성능 구성을 위한 메모리-연산 분리, 버스트 길이 기반 실행 제어를 연구합니다. 또한 ONNX Runtime 기반 PIM 실행 추상화와 DMA descriptor 기반 PIM ISA, 레지스터 주소모드 및 데이터 플로우 프로그래밍 모델을 통해 오프로딩 및 전송 오버헤드를 줄이는 소프트웨어·아키텍처 통합을 수행합니다. 이와 함께 PCIe 및 멀티채널 환경의 저오버헤드 데이터 전송, MIPI DSI 패킷 기반 화소 변환 회로, 마이크로LED 디스플레이 백플레인 개발을 병행합니다.

Processing-in-Memory인메모리 연산DRAM 표준 인터페이스DMA 오프로딩PIM ISA
대표 연구 분야
연구 영역 전체보기
표준 DRAM 인터페이스 기반 All-bank 인메모리 연산 아키텍처 thumbnail
표준 DRAM 인터페이스 기반 All-bank 인메모리 연산 아키텍처
Standard-Interface All-Bank In-DRAM PIM Architectures
연구 분야 상세보기
연구 성과 추이
표시된 성과는 수집된 데이터 기준으로 산출되며, 일부 차이가 있을 수 있습니다.
주요 논문
5
논문 전체보기
1
Article
|
인용수 7
·
2023
PISA-DMA: Processing-in-Memory Instruction Set Architecture Using DMA
Won Jun Lee, Chang Hyun Kim, Yoonah Paik, Seon Wook Kim
IF 3.4 (2023)
IEEE Access
처리-메모리(Processing-in-memory, PIM)는 특히 메모리 집약적인 DNN 애플리케이션의 연산을 위해 메모리 대역폭 한계를 극복하기 위한 방안으로 주목받고 있다. 대부분의 PIM 접근법은 CPU의 메모리 요청을 활용하여 PIM 엔진에 명령과 피연산자를 전달하며, 그 결과 핵심 처리부가 바쁘게 점유되어 불필요한 데이터 전송이 발생하고, 이에 따라 상당한 오프로딩 오버헤드가 유발된다. DMA는 CPU의 개입 없이 메모리 계층을 오염시키지 않으면서 연속된 대량의 데이터를 전송함으로써 이러한 문제를 해결할 수 있으며, 이는 PIM 개념에 정확히 부합한다. 그러나 DRAM 기반 PIM 장치의 제한된 연산 자원 때문에 단일 DMA 트랜잭션에서 전송 가능한 데이터 양이 작고, 많은 수의 디스크립터(descriptor)가 필요하므로 여전히 상당한 오프로딩 오버헤드가 발생한다. 본 논문에서는 PIM 오퍼레이션 코드(opcode)와 피연산자를 단일 디스크립터로 표현하기 위해 PISA-DMA(PIM ISA using DMA descriptor called PISA-DMA)라는 DMA 디스크립터를 활용한 PIM 명령어 세트 아키텍처(ISA)를 제안한다. 제안한 ISA는 하나의 PIM 명령을 하나의 DMA 트랜잭션 완료로 간주하고, DMA 디스크립터 리스트를 사용하여 일련의 PIM 명령을 표현함으로써 PIM 프로그래밍을 직관적으로 만든다. 또한 PISA-DMA는 오프로딩 오버헤드를 최소화하면서 상용 플랫폼과의 호환성을 보장한다. PISA-DMA는 오퍼레이션 코드 오프로딩 오버헤드를 제거하고, ONNX runtime에서 실제 기계를 사용했을 때 시퀀스 길이 128에서 각각 BERT, RoBERTa, GPT-2 모델에 대해 기본 PIM 대비 1.25배, 1.31배, 1.29배의 속도 향상을 달성한다. 아울러 본 논문은 제안한 PISA가 컴파일러 최적화에서 성능에 미치는 영향을 연구하고, 행렬-행렬 곱(matrix-matrix multiplication)과 원소별 덧셈(element-wise addition)의 연산자 융합(operator fusion)을 통해 1.04배의 속도 향상을 보이며, 이는 기존 ISA에서도 유사한 성능 이득을 보여준다는 점을 확인한다.
https://doi.org/10.1109/access.2023.3238812
Computer science
Opcode
Operand
Parallel computing
Speedup
Compiler
Coprocessor
Instruction set
Computer architecture
Overhead (engineering)
2
Article
|
인용수 2
·
2023
BL-PIM: Varying the Burst Length to Realize the All-Bank Performance and Minimize the Multi-Workload Interference for in-DRAM PIM
Chang Hyun Kim, Won Jun Lee, Yoonah Paik, Seok Young Kim, Seon Wook Kim
IF 3.4 (2023)
IEEE Access
트랜스포머 응용에 대한 수요가 급격히 증가함에 따라, 메모리 병목을 해결하기 위한 기술들이 주목받고 있다. 그중 하나가 DRAM 내부에서 연산을 수행하는 인-DRAM Processing-In-Memory(PIM) 아키텍처이다. 주요 DRAM 제조사들은 PIM 샘플을 도입하면서, 모든 뱅크의 연산을 동시에 수행하여 내부 DRAM 대역폭을 최대화함으로써 최고 성능을 달성하고자 한다. 그러나 상용 제품으로의 구현은 문제가 있는데, PIM 메모리에서 PIM 실행 중에는 모든 뱅크의 실행이 PIM이 아닌 애플리케이션과 동시에 수행되지 않으므로 메모리 공간이 분리되기 때문이다. 본 논문은 뱅크 내부에서 메모리 요청의 버스트 길이(BL)를 증가시켜 내부 대역폭을 최대화하고, 뱅크 간 연산을 중첩함으로써 모든 뱅크 성능을 달성하는 BL-PIM 아키텍처를 제안한다. 한편 뱅크 외부에서는 BL을 증가시키지 않는 것으로 보이므로, 메모리 계층에서 데이터 일관성을 보존하면서 PIM 메모리와 함께 PIM이 아닌 애플리케이션과 PIM 애플리케이션을 동시에 실행할 수 있다. 또한 더 큰 BL을 사용하는 메모리 집약적인 PIM 연산은 메모리 요청의 수를 크게 감소시켜, 다른 애플리케이션과의 성능 간섭을 최소화한다. 우리는 DRAM 타이밍 다이어그램을 면밀히 확장하고, 메모리 컨트롤러와 PIM 장치 간의 협력 메커니즘을 개발하였다. FPGA에서 BL-PIM 아키텍처를 구현하고, 네 가지 트랜스포머 모델과 여덟 개의 연산/메모리-대역폭 병목 SPEC 벤치마크를 사용하여 실제 기계에서의 성능과 비교하였다. 그 결과, BL-PIM은 트랜스포머 모델에서 CPU 단일 스레드 및 다중 스레드 실행 대비 최대 28.9배 및 12.0배 더 빠른 성능을 달성하였다. 또한 최대치로 버스트 길이를 16배 증가시켰을 때, BL-PIM은 이상적인 모든 뱅크 PIM 실행 대비 1.2배 더 빠르다. 아울러 SPEC 벤치마크를 사용한 다중 워크로드 실행을 실험하였으며, 본 아키텍처가 성능 간섭을 최소화할 수 있음을 보여주었다. 우리가 아는 한, PIM의 다중 워크로드 실행에 대한 연구는 공개된 범위에서 이번이 최초이다.
https://doi.org/10.1109/access.2023.3300893
Computer science
Memory controller
Registered memory
Interleaved memory
CAS latency
Dram
Embedded system
Parallel computing
Computer hardware
Memory management
3
Article
|
·
인용수 5
·
2022
Low-overhead inverted LUT design for bounded DNN activation functions on floating-point vector ALUs
Seok Young Kim, Seok Young Kim, Chang Hyun Kim, Won Joon Lee, Il Memming Park, Seon Wook Kim, Seon Wook Kim
IF 2.6 (2022)
Microprocessors and Microsystems
https://doi.org/10.1016/j.micpro.2022.104592
Lookup table
Computer science
Floating point
Activation function
Algorithm
Overhead (engineering)
Parallel computing
Artificial neural network
Artificial intelligence
최신 정부 과제
40
과제 전체보기
1
2024년 3월-2027년 12월
|1,566,667,000
시뮬레이션 기반 고속/고정확도 데이터센터 워크로드/시스템 분석 플랫폼 개발
● 데이터 센터에서 대규모 AI 워크로드를 최적으로 실행하기 위한 NPU, PIM 등의 AI 반도체를 탑재하는 단일 서버 시스템 하드웨어 구성을 도출하기 위한 고속/고정밀 시뮬레이션/프로파일링 플랫폼 개발- 고속/고정밀 시뮬레이션/프로파일링 플랫폼을 통해 대규모 AI 워크로드에 따른 최적의 하드웨어 구성으로 유휴 하드웨어 자원을 최소화하여 구축 비용 및 에...
대규모 AI 워크로드 분석
서버 시스템 모델링
서버 시스템 프로파일링
AI 반도체 데이터센터
고속/고정밀 시뮬레이터
2
2022년 3월-2028년 12월
|786,000,000
재구성형 PIM 디바이스 기반의 Memory-Centric 아키텍처 개발
■ 최종목표 : 범용성과 확장성을 가지면서 엣지, 모바일, 서버 등 다양한 응용 분야에 확장 적용 가능한 하드웨어/소프트웨어 재구성 가능 PIM 아키텍처 기술 개발 □ 하드웨어 수준의 PIM 연산기 재구성을 통해 범용성 및 신뢰성 특성 확보. □ 소프트웨어를 통해 다수의 PIM 간 연결을 재구성할 수 있는 시스템 수준의 PIM 아키텍처 기술 개발. □...
인 메모리 연산
하드웨어 재구성
소프트웨어 재구성
시스템 소프트웨어
딥 뉴럴 네트워크
3
2022년 3월-2025년 12월
|1,697,000,000
데이터 플로우 구조 기반 PIM의 실행 및 프로그래밍 모델 개발
시스템 메인 메모리로서의 PIM 반도체와 이기종 가속기 플랫폼을 위한 데이터 플로우 기반의 프로그래밍 및 실행 모델, 컴파일러 및 개발 도구, 운영체제(드라이버, 메모리관리, 스케쥴러), 런타임 및 프레임워크 인공지능를 포함한 다양한 응용을 전용 라이브러리 개발을 통해 PIM 반도체용 컴퓨팅 구조 및 SW기술 핵심 원천기술을 확보하고자 함- 현재 가속기로 ...
인메모리컴퓨팅
시스템 소프트웨어
인공지능
운영체제
컴파일러
최신 특허
특허 전체보기
상태출원연도과제명출원번호상세정보
공개2023딥 러닝 모델의 그래프 탐색 방법 및 장치1020230043576
공개2022연산 정확도가 보장된 인메모리 연산 장치 및 동작 방법1020220168043
거절2022MIPI DSI 패킷을 임의 크기의 픽셀로 변환하는 픽셀 변환기 및 그 동작 방법1020220022910
전체 특허

딥 러닝 모델의 그래프 탐색 방법 및 장치

상태
공개
출원연도
2023
출원번호
1020230043576

연산 정확도가 보장된 인메모리 연산 장치 및 동작 방법

상태
공개
출원연도
2022
출원번호
1020220168043

MIPI DSI 패킷을 임의 크기의 픽셀로 변환하는 픽셀 변환기 및 그 동작 방법

상태
거절
출원연도
2022
출원번호
1020220022910