주요 논문
5
*2026년 기준 최근 6년 이내 논문에 한해 Impact Factor가 표기됩니다.
1
Article
|
·
인용수 0
·
2025Fold-PIM: A Cost-Efficient LPDDR5-Based PIM for On-Device SLMs
Kyoungho Jeun, Hyeonu Kim, Eojin Lee
IF 1.4 (2025)
IEEE Computer Architecture Letters
온디바이스 AI 애플리케이션에 대한 수요가 증가함에 따라 모바일 환경에 최적화된 소형 언어 모델(Small Language Models, SLMs)에 대한 관심이 높아지고 있다. 그러나 LPDDR5 기반 시스템의 제한된 메모리 대역폭은, SLM 추론의 핵심 구성요소인 메모리 바운드 행렬-벡터 곱(matrix-vector multiplication) 연산을 효율적으로 수행하는 데 있어 중대한 문제를 야기한다. 본 논문에서는 이러한 문제를 해결하기 위해 LPDDR5 기반 처리-메모리(Processing-in-Memory, PIM) 아키텍처인 Fold-PIM을 제안한다. FoldPIM은 비용 효율성을 유지하면서 서브어레이 수준 병렬성을 활용하는 공유 PU 아키텍처를 특징으로 한다. 또한 다양한 행렬 크기에 걸쳐 GEMV 연산을 효율적으로 수행하기 위한 적응형 타일링(adaptive tiling), 버퍼 오버헤드를 최소화하기 위한 전치된 데이터 레이아웃(transposed data layout), 그리고 벡터 교체(vector replacement) 지연을 감소시키기 위한 맞춤형 프로토콜을 포함한 핵심 기법을 도입한다. 평가 결과, Fold-PIM은 PIM이 없는 기준 시스템(baseline system)과 비교하여 SLM 추론에서 토큰 생성 시간(token generation time)을 최대 3.9배까지 향상시키는 것으로 나타났다.
https://doi.org/10.1109/lca.2025.3566692
Computer science
Computer architecture
2
Article
|
·
인용수 0
·
2024Architecting Compatible PIM Protocol for CPU-PIM Collaboration
Seunghyuk Yu, Hyeonu Kim, Kyoungho Jeun, Sun-Young Hwang, Eojin Lee
IF 1.4 (2024)
IEEE Computer Architecture Letters
메모리 내 처리(Processing in Memory, PIM) 기술은 여러 시제품 제품의 도입과 함께 주목을 받고 있다. 그러나 기존 PIM 장치의 인터페이스는 PIM 연산 중에 장시간 동안 일반 메모리 요청을 지연시켜 CPU 성능을 과도하게 저해한다. 본 논문에서는 제한된 명령 공간을 갖는 DRAM 표준을 중심으로, 다양한 PIM 장치와 호스트 프로세서 간의 호환성을 고려하여 새로운 PIM 명령과 프로토콜을 제안한다. 제안하는 명령인 PIM-ACT는 특정 PIM 연산을 할당하면서 다수의 뱅크를 동시에 활성화한다. 이는 메모리 컨트롤러의 손쉬운 제어를 위해 ACT 명령의 기능을 면밀히 따른다. 또한 본 연구에서는 기존 메모리 요청의 지연과 PIM 워크로드의 처리량을 균형 있게 조정하는 메모리 스케줄링 정책을 탐색한다. 평가는 본 접근법이 PIM 및 기존 워크로드 성능 모두를 최적화하는 데 효과적임을 보여준다.
http://dx.doi.org/10.1109/lca.2024.3432936
Computer science
Protocol (science)
Computer architecture
Embedded system
Operating system
Computer network
3
Article
|
·
인용수 9
·
2023GraNDe: Efficient Near-Data Processing Architecture for Graph Neural Networks
Sungmin Yun, Hwayong Nam, Jaehyun Park, Byeongho Kim, Jung Ho Ahn, Eojin Lee
IF 3.6 (2023)
IEEE Transactions on Computers
그래프 신경망(Graph Neural Network, GNN) 모델은 그래프 데이터 해석에서 높은 정확도를 보이기 때문에 주목받고 있다. GNN 모델의 주요 구성 요소 중 하나는 집계(aggregation)로, 각 노드에 인접한 노드들에 해당하는 특징 벡터를 수집하고 평균 내는 과정을 수행한다. 집계는 인접 행렬과 특징 행렬을 곱함으로써 작동한다. 그러나 많은 현실적인 데이터셋에서 두 행렬의 크기는 온칩 캐시 용량을 초과하며, 인접 행렬은 매우 희소하다. 이러한 특성은 데이터 재사용을 거의 불가능하게 만들어 집계 과정에서 주기억장치에 대한 집중적인 접근이 발생한다. 따라서 집계는 메모리 집약적 특성을 가지며 전체 실행 시간의 대부분을 지배한다. 본 논문에서는 DRAM 데이터패스 근처에 NDP 모듈을 배치하여 랭크 수준 병렬성(rank-level parallelism)을 활용함으로써 메모리 집약적인 집계 연산을 가속하는 NDP 아키텍처인 GraNDe를 제안한다. GraNDe는 버퍼 칩을 메모리 채널 경로 사이에 삽입하여 호스트 프로세서에서의 전처리/후처리와 NDP 모듈에서의 감소(reduction)가 동시에 수행되도록 함으로써 대역폭 활용을 극대화한다. 피연산자 행렬의 DRAM 랭크에 대한 선호 데이터 매핑(preferred data mappings)을 탐색함으로써, GraNDe는 각 레이어의 차원과 메모리 시스템 구성에 따라 최적 매핑을 적용하는 적응형 행렬 매핑(adaptive matrix mapping)을 지원하도록 설계되었다. 또한 인접한 노드 간의 인접성(adjacency)을 고려한 타일링(tiling)을 활용하여 인접 행렬 데이터의 전송 시간을 줄이고 특징 벡터 데이터의 재사용성을 향상시키기 위한 adj-bundle 브로드캐스팅과 재-타일링(re-tiling) 최적화를 제안한다. GraNDe는 평균적으로 GCN 집계에 대해 기본 시스템과 GCN을 위한 최신 NDP 아키텍처 대비 각각 3.01× 및 1.69×의 성능 향상을 달성하며, 각각 최대 및 의 속도 향상을 보인다.
https://doi.org/10.1109/tc.2023.3283677
Computer science
Parallel computing
Adjacency matrix
Datapath
Adjacency list
Cache
Dram
Memory bandwidth
Graph
Theoretical computer science
4
Article
|
·
인용수 12
·
2022GraNDe: Near-Data Processing Architecture With Adaptive Matrix Mapping for Graph Convolutional Networks
Sungmin Yun, Byeongho Kim, Jaehyun Park, Hwayong Nam, Jung Ho Ahn, Eojin Lee
IF 2.3 (2022)
IEEE Computer Architecture Letters
그래프 컨볼루션 네트워크(Graph Convolutional Network, GCN) 모델은 그래프 데이터 해석에서 높은 정확도를 바탕으로 주목받고 있다. GCN 모델의 주요 구성 요소 중 하나는 집계(aggregation)이며, 이는 각 정점에 인접한 정점들이 대응하는 특징 벡터를 수집하고 평균내는 과정을 의미한다. 집계는 인접 행렬과 특징 행렬을 곱함으로써 수행된다. 두 행렬 모두의 크기는 온칩 캐시 용량을 초과하며, 인접 행렬은 매우 희소하다. 이로 인해 데이터 재사용이 거의 일어나지 않아 집계 과정에서 다수의 주기억장치(main-memory) 접근이 발생한다. 따라서 집계는 메모리 집약적 특성을 보인다. 본 연구에서는 DRAM 데이터패스(datapath) 인근에 처리 요소를 배치하여 랭크(rank) 수준 병렬성을 활용함으로써 메모리 집약적인 집계 연산을 가속하는 NDP 아키텍처인 GraNDe를 제안한다. 연산자 행렬(operand matrices)의 데이터 매핑을 DRAM 랭크에 대응시켜 탐색한 결과, 최적 매핑은 특정 GCN 층의 구성에 따라 달라짐을 발견하였다. 층별 최적 매핑 방식을 적용함으로써, GraNDe는 오픈 그래프 벤치마크(open-graph benchmark) 데이터셋에서 기준 시스템(baseline system) 대비 최대 4.3×의 속도 향상을 보인다.
https://doi.org/10.1109/lca.2022.3182387
Computer science
Parallel computing
Speedup
Adjacency matrix
Datapath
Graph
Bipartite graph
Adjacency list
Dram
Dataflow
5
Article
|
·
인용수 7
·
2022MaPHeA: A Framework for Lightweight Memory Hierarchy-aware Profile-guided Heap Allocation
Deok-Jae Oh, Yaebin Moon, Do Kyu Ham, Tae Jun Ham, Yongjun Park, Jae W. Lee, Jung Ho Ahn, Eojin Lee
IF 2 (2022)
ACM Transactions on Embedded Computing Systems
하드웨어 성능 모니터링 유닛(Performance Monitoring Units, PMU)은 현대 마이크로프로세서의 표준 기능으로, 풍부한 마이크로아키텍처 이벤트 샘플러의 집합을 제공한다. 최근 다수의 프로파일 기반 최적화(profile-guided optimization, PGO) 프레임워크는 기존의 계측(instrumentation) 기반 프레임워크에 비해 훨씬 낮은 프로파일링 오버헤드를 제공하는 방식으로 이를 활용해 왔다. 그러나 기존의 PGO 프레임워크는 주로 바이너리의 배치(layout)를 최적화하는 데 집중하며, 메모리 계층(memory hierarchy)에 걸친 데이터 접근 행태에 대해 PMU가 제공하는 풍부한 정보를 간과한다. 따라서 본 연구에서는 MaPHeA를 제안한다. MaPHeA는 경량의 “M emory hierarchy- a ware P rofile-guided He ap A llocation” 프레임워크로, HPC와 임베디드 시스템 모두에 적용 가능하다. MaPHeA는 매우 낮은 프로파일링 오버헤드로, 그리고 추가적인 사용자 개입 없이 애플리케이션 성능을 향상시키기 위해 동적으로 할당된 힙(heap) 객체의 최적화된 할당을 안내하고 적용한다. MaPHeA의 효과를 입증하기 위해, 이를 떠오르는 DRAM-NVM 이기종 메모리 시스템(HMS)에서 힙 객체 할당 최적화, 선택적 huge-page(대형 페이지) 활용, 그리고 시간적 지역성(temporal locality)이 낮은 객체에 대한 캐시 가능성(cacheability) 제어에 적용한다. HMS에서 MaPHeA는 자주 접근되는 힙 객체를 fast DRAM 영역에 식별·배치함으로써, DRAM을 느린 NVM의 하드웨어 관리 캐시로 사용하는 기본 설정에 비해 메모리 집약적 그래프 처리(graph-processing) 및 Redis 워크로드의 성능을 평균 56.0% 향상시킨다. 또한 MaPHeA는 TLB 미스가 빈번하게 발생하게 하는 큰 힙 객체를 식별하여 huge page에 할당함으로써, Linux의 transparent huge-page 구현에 비해 Redis의 읽기 및 업데이트 작업 성능을 10.6% 향상시킨다. 더 나아가 시간적 지역성이 낮아 캐시 오염(cache pollution)을 유발하는 객체들을 구별하고, 이에 대해 write-combining을 적용함으로써, MaPHeA는 캐시 가능성 제어가 없는 시스템에 비해 STREAM 및 RADIX 워크로드의 성능을 평균 20.0% 향상시킨다.
https://doi.org/10.1145/3527853
Computer science
Heap (data structure)
Memory hierarchy
Dram
Profiling (computer programming)
Operating system
Cache
Locality
Embedded system
Overlay