RnDCircle Logo
Computer Architecture and Memory System Laboratory
인하대학교 본교(제1캠퍼스) 인공지능공학과 이어진 교수
Processing-in-Memory
Near-Data Processing
Memory hierarchy optimization
연구 영역
기본 정보
논문·특허
과제
구성원

Computer Architecture and Memory System Laboratory

인하대학교 본교(제1캠퍼스) 인공지능공학과 이어진 교수

컴퓨터 아키텍처 및 메모리 시스템 연구실은 컴퓨터공학과 소속으로, 메모리 시스템 및 DRAM 아키텍처, AI 응용을 위한 가속기 아키텍처, 그리고 최신 애플리케이션의 프로파일링을 주요 연구 주제로 삼고 있습니다. 최근 3년간 본 연구실은 그래프 신경망을 위한 효율적인 근거리 데이터 처리 아키텍처(GraNDe), 계층화된 메모리 시스템에서의 공격적인 강등 및 승격 기법(ADT), 그리고 그래프 컨볼루션 네트워크를 위한 적응형 행렬 매핑을 갖춘 근거리 데이터 처리 아키텍처(GraNDe) 등 다수의 연구 성과를 발표하였습니다. 이러한 연구 결과는 다양한 국제 학술지와 학회에서 인정받고 있으며, 특히 메모리 시스템 아키텍처와 AI 가속기 아키텍처 분야에서 높은 연구 역량을 보유하고 있습니다.

Processing-in-MemoryNear-Data ProcessingMemory hierarchy optimizationRow HammerECC
대표 연구 분야
연구 영역 전체보기
AI를 위한 프로세싱-인-메모리 및 근접 데이터 처리 thumbnail
AI를 위한 프로세싱-인-메모리 및 근접 데이터 처리
Processing-in-Memory and Near-Data Processing for AI
연구 분야 상세보기
연구 성과 추이
표시된 성과는 수집된 데이터 기준으로 산출되며, 일부 차이가 있을 수 있습니다.
주요 논문
5
논문 전체보기
1
Article
|
·
인용수 0
·
2025
Fold-PIM: A Cost-Efficient LPDDR5-Based PIM for On-Device SLMs
Kyoungho Jeun, Hyeonu Kim, Eojin Lee
IF 1.4 (2025)
IEEE Computer Architecture Letters
온디바이스 AI 애플리케이션에 대한 수요가 증가함에 따라 모바일 환경에 최적화된 소형 언어 모델(Small Language Models, SLMs)에 대한 관심이 높아지고 있다. 그러나 LPDDR5 기반 시스템의 제한된 메모리 대역폭은, SLM 추론의 핵심 구성요소인 메모리 바운드 행렬-벡터 곱(matrix-vector multiplication) 연산을 효율적으로 수행하는 데 있어 중대한 문제를 야기한다. 본 논문에서는 이러한 문제를 해결하기 위해 LPDDR5 기반 처리-메모리(Processing-in-Memory, PIM) 아키텍처인 Fold-PIM을 제안한다. FoldPIM은 비용 효율성을 유지하면서 서브어레이 수준 병렬성을 활용하는 공유 PU 아키텍처를 특징으로 한다. 또한 다양한 행렬 크기에 걸쳐 GEMV 연산을 효율적으로 수행하기 위한 적응형 타일링(adaptive tiling), 버퍼 오버헤드를 최소화하기 위한 전치된 데이터 레이아웃(transposed data layout), 그리고 벡터 교체(vector replacement) 지연을 감소시키기 위한 맞춤형 프로토콜을 포함한 핵심 기법을 도입한다. 평가 결과, Fold-PIM은 PIM이 없는 기준 시스템(baseline system)과 비교하여 SLM 추론에서 토큰 생성 시간(token generation time)을 최대 3.9배까지 향상시키는 것으로 나타났다.
https://doi.org/10.1109/lca.2025.3566692
Computer science
Computer architecture
2
Article
|
·
인용수 0
·
2024
Architecting Compatible PIM Protocol for CPU-PIM Collaboration
Seunghyuk Yu, Hyeonu Kim, Kyoungho Jeun, Sun-Young Hwang, Eojin Lee
IF 1.4 (2024)
IEEE Computer Architecture Letters
메모리 내 처리(Processing in Memory, PIM) 기술은 여러 시제품 제품의 도입과 함께 주목을 받고 있다. 그러나 기존 PIM 장치의 인터페이스는 PIM 연산 중에 장시간 동안 일반 메모리 요청을 지연시켜 CPU 성능을 과도하게 저해한다. 본 논문에서는 제한된 명령 공간을 갖는 DRAM 표준을 중심으로, 다양한 PIM 장치와 호스트 프로세서 간의 호환성을 고려하여 새로운 PIM 명령과 프로토콜을 제안한다. 제안하는 명령인 PIM-ACT는 특정 PIM 연산을 할당하면서 다수의 뱅크를 동시에 활성화한다. 이는 메모리 컨트롤러의 손쉬운 제어를 위해 ACT 명령의 기능을 면밀히 따른다. 또한 본 연구에서는 기존 메모리 요청의 지연과 PIM 워크로드의 처리량을 균형 있게 조정하는 메모리 스케줄링 정책을 탐색한다. 평가는 본 접근법이 PIM 및 기존 워크로드 성능 모두를 최적화하는 데 효과적임을 보여준다.
http://dx.doi.org/10.1109/lca.2024.3432936
Computer science
Protocol (science)
Computer architecture
Embedded system
Operating system
Computer network
3
Article
|
·
인용수 9
·
2023
GraNDe: Efficient Near-Data Processing Architecture for Graph Neural Networks
Sungmin Yun, Hwayong Nam, Jaehyun Park, Byeongho Kim, Jung Ho Ahn, Eojin Lee
IF 3.6 (2023)
IEEE Transactions on Computers
그래프 신경망(Graph Neural Network, GNN) 모델은 그래프 데이터 해석에서 높은 정확도를 보이기 때문에 주목받고 있다. GNN 모델의 주요 구성 요소 중 하나는 집계(aggregation)로, 각 노드에 인접한 노드들에 해당하는 특징 벡터를 수집하고 평균 내는 과정을 수행한다. 집계는 인접 행렬과 특징 행렬을 곱함으로써 작동한다. 그러나 많은 현실적인 데이터셋에서 두 행렬의 크기는 온칩 캐시 용량을 초과하며, 인접 행렬은 매우 희소하다. 이러한 특성은 데이터 재사용을 거의 불가능하게 만들어 집계 과정에서 주기억장치에 대한 집중적인 접근이 발생한다. 따라서 집계는 메모리 집약적 특성을 가지며 전체 실행 시간의 대부분을 지배한다. 본 논문에서는 DRAM 데이터패스 근처에 NDP 모듈을 배치하여 랭크 수준 병렬성(rank-level parallelism)을 활용함으로써 메모리 집약적인 집계 연산을 가속하는 NDP 아키텍처인 GraNDe를 제안한다. GraNDe는 버퍼 칩을 메모리 채널 경로 사이에 삽입하여 호스트 프로세서에서의 전처리/후처리와 NDP 모듈에서의 감소(reduction)가 동시에 수행되도록 함으로써 대역폭 활용을 극대화한다. 피연산자 행렬의 DRAM 랭크에 대한 선호 데이터 매핑(preferred data mappings)을 탐색함으로써, GraNDe는 각 레이어의 차원과 메모리 시스템 구성에 따라 최적 매핑을 적용하는 적응형 행렬 매핑(adaptive matrix mapping)을 지원하도록 설계되었다. 또한 인접한 노드 간의 인접성(adjacency)을 고려한 타일링(tiling)을 활용하여 인접 행렬 데이터의 전송 시간을 줄이고 특징 벡터 데이터의 재사용성을 향상시키기 위한 adj-bundle 브로드캐스팅과 재-타일링(re-tiling) 최적화를 제안한다. GraNDe는 평균적으로 GCN 집계에 대해 기본 시스템과 GCN을 위한 최신 NDP 아키텍처 대비 각각 3.01× 및 1.69×의 성능 향상을 달성하며, 각각 최대 의 속도 향상을 보인다.
https://doi.org/10.1109/tc.2023.3283677
Computer science
Parallel computing
Adjacency matrix
Datapath
Adjacency list
Cache
Dram
Memory bandwidth
Graph
Theoretical computer science
최신 정부 과제
6
과제 전체보기
1
2025년 3월-2028년 12월
|974,000,000
서버급 DRAM 적층 기반 초거대 모델 향 PIM 가속 솔루션 개발
최신 대규모 AI모델의 연산을 가속하기 위한 HBM-PIM의 하드웨어-소프트웨어 통합 시스템을 개발하고 Full Stack 플랫폼에서 연산 성능을 평가함
메모리 내 연산
고대역폭 메모리
인공지능
대규모 언어 모델
인공지능 반도체
2
2025년 3월-2029년 12월
|3,171,700,000
동형암호 기반 K-클라우드 전용 Privacy Preserving AI 통합시스템 개발
> (배경) 클라우드는 특성상 외부와 접속이 빈번하고 다양한 내부자가 데이터에 접근할수 있어 해킹과 보안에 취약함. 정부와 산업체에서 안전하게 클라우드를 활용할수 있도록 안전성을 획기적으로 올리는 방안이 요구됨.> (최종 목표) 본 과제에서는 동형암호 기반 Privacy Preserving AI (PPAI) 통합시스템 개발을 제안함. PPAI 시스템에서는 ...
인공지능
인공지능 가속기
클라우드
동형암호
데이터 프라이버시
3
2025년 3월-2028년 12월
|1,014,000,000
서버급 DRAM 적층 기반 초거대 모델 향 PIM 가속 솔루션 개발
최신 대규모 AI모델의 연산을 가속하기 위한 HBM-PIM의 하드웨어-소프트웨어 통합 시스템을 개발하고 Full Stack 플랫폼에서 연산 성능을 평가함
메모리 내 연산
고대역폭 메모리
인공지능
대규모 언어 모델
인공지능 반도체
맞춤형 인사이트 리포트
연구실의 전체 데이터를 활용한 맞춤형 인사이트 리포트
연구 트렌드부터 공동 연구 방향성 기획까지
연구실과 같이 할 수 있는게 무엇인지,
지금 바로 확인해보세요
무료 리포트 확인하기