논문 | 김대훈 교수 연구실 | 연세대학교 시스템반도체공학과

|김대훈 교수 연구실

홈

연구 영역

기본 정보

논문·특허

과제

구성원

논문

연구 성과 추이

표시된 성과는 수집된 데이터 기준으로 산출되며, 일부 차이가 있을 수 있습니다.

5개년 연도별 논문 게재 수

18총합

5개년 연도별 피인용 수

111총합

주요 논문

*2026년 기준 최근 6년 이내 논문에 한해 Impact Factor가 표기됩니다.

Article

인용수 0

2026

ReplayOpt: Optimizer-State Replay to Resolve Critical-Path Bottlenecks in Offloaded Training

S.H. Bang, Gyeongseo Park, Kyeonghyeon Ryu, Daehoon Kim

IF 1.4 (2026)

IEEE Computer Architecture Letters

CPU 오프로딩(offloaded) 학습은, 저정밀 가중치를 GPU에 유지하는 한편 고정밀 옵티마이저 상태를 호스트 메모리에 저장함으로써, 비교적 소규모 GPU 클러스터에서 수십억 스케일 모델의 학습을 가능하게 한다. 우리는 CPU 오프로딩 학습이 종종 PCIe 전송에 의해 병목이 생기는 것이 아니라, 고정밀 옵티마이저 상태를 호스트 메모리에 저장하는 과정이 다음 반복을 지연시켜 GPU를 정지시키기 때문에 병목이 발생한다는 점을 발견하였다. 우리의 측정에 따르면, 이러한 비중첩(non overlapped) 저장은 CPU 측 옵티마이저 시간의 최대 28%를 차지하며 다음 반복의 시작을 지연시켜 GPU가 유휴 상태에 머무르게 한다. 본 연구에서는 호스트 메모리 상태 저장을 임계 경로(critical path)에서 제거하기 위해 CPU–GPU 업데이트 스케줄을 재정렬하는 옵티마이저 설계인 ReplayOpt를 제안한다. ReplayOpt는 다음 반복의 저정밀 가중치를 먼저 생성하고 전송한 뒤, 배경에서 고정밀 상태 업데이트를 재생(replay)하여 호스트 메모리 기록(writebacks)을 임계 경로에서 제거한다. LLM 워크로드 전반에 걸쳐, ReplayOpt는 정확도 손실 없이 CPU 측 옵티마이저 시간을 최대 55.2% 감소시키고 단계(step) 시간을 최대 21.7% 감소시킨다.

https://doi.org/10.1109/lca.2026.3676470

Training (meteorology)

Key (lock)

Exploit

The Internet

Server

Article

인용수 0

2026

Hisui: Unlocking Tiered Memory Efficiency for FaaS Workloads

Seonggyu Han, Sangwoong Kim, Minho Kim, Daehoon Kim

IF 1.4 (2026)

IEEE Computer Architecture Letters

현대적 계층형 메모리 아키텍처는 물리적 용량이 큰 클라우드 서버에서 점점 더 널리 채택되고 있다. 그러나 그 성능 잠재력을 온전히 실현하기 위해서는 효과적인 페이지 관리가 필요하다. 기존 시스템은 장기간 수행되는 워크로드에 맞추어 조정되어 있으며, 주로 접근 횟수 기반의 승격(promtion)에 의존한다. 그러나 이러한 정책은 함수형 서비스(Function-as-a-Service, FaaS) 워크로드의 단명하며 이벤트 중심인 모델에 부적합하다. 그 결과 워크로드-아키텍처 간 불일치가 발생하여 페이지 배치가 부실해지고, 아키텍처 효율이 심각하게 저하된다. 본 연구에서는 FaaS 워크로드에 맞춘 FaaS 인지(tiered) 메모리 관리 시스템인 Hisui를 제시한다. Hisui는 두 가지 메커니즘을 통해 높은 예상 재사용성을 지닌 페이지를 단계적으로 배치한다: FMem 승인(admission) 필터와, 호출(invocation) 빈도에 가중치를 둔 평가(valuation)로서 이득(gain)이 큰 순서대로 페이지를 승격한다. Hisui는 접근 횟수 기반 기준선 대비 최대 1.57배 높은 처리량을 제공하며, 실제 워크로드에서 지연(latency)을 일관되게 낮춘다.

https://doi.org/10.1109/lca.2026.3654119

Server

Cloud computing

Latency (audio)

Reuse

Throughput

Memory management

Article

인용수 0

2026

Nighthawk: Zero-Copy Cache Quarantine for Invisible Speculation

Minwoo Jang, Sungju Kim, Daehoon Kim

IF 1.4 (2026)

IEEE Computer Architecture Letters

순서 외 실행은 프로세서 성능을 향상시키지만, 미세구조적 부수 효과를 통해 기밀 데이터를 유출하는 일시적 실행 취약점을 초래한다. 기존 방어 기법은 종종 전용 버퍼나 복잡한 포워딩 로직과 같은 침습적인 하드웨어 수정이 필요하며, 그 결과 성능 저하가 과도해진다. 본 연구에서는 보조 구조물의 면적 오버헤드 없이 투기적 로드를 격리하기 위해 기존 캐시 웨이(cache way)를 재목적화하는 경량 방어 기법 Nighthawk를 제안한다. Nighthawk는 캐시 내 격리(in-cache quarantine) 메커니즘을 도입하여, 투기적 데이터의 버퍼링을 위해 특정 캐시 웨이를 동적으로 할당함으로써, 디커플드 버퍼 설계에 내재된 데이터 복사 지연을 사실상 제거한다. 이 메커니즘을 Speculative Taint Tracking (STT)과 통합함으로써, STT의 제한적인 스톨(stall) 정책을 선인출(prefetch)하되 격리하는 전략으로 전환한다. 본 접근은 투기적 미스가 격리된 웨이로 진행되도록 허용하되, 해결 전까지는 미세구조적 전파를 차단함으로써 메모리 수준 병렬성을 회복한다. gem5를 사용하여 SPEC CPU2006/2017 벤치마크로 평가한 결과, Nighthawk는 STT로 인해 상실된 성능을 회복하며, 평균 실행 시간 6.2% 감소 및 메모리 집약적 워크로드에서 최대 28.8% 감소를 보인다. 이는 보안성과 고성능을 모두 요구하는 프로세서를 위한 보다 실용적인 설계 지점을 제공한다.

https://doi.org/10.1109/lca.2026.3677441

Speculation

Cache

Speculative multithreading

Set (abstract data type)

Article

인용수 1

2025

SAFE: Sharing-Aware Prefetching for Efficient GPU Memory Management With Unified Virtual Memory

Hyunkyun Shin, S.H. Bang, Hyoungwon Park, Daehoon Kim

IF 1.4 (2025)

IEEE Computer Architecture Letters

기계 학습과 같은 응용에서 GPU 메모리에 대한 수요가 기하급수적으로 계속 증가함에 따라, GPU 메모리 용량을 최대화하는 일이 점점 더 중요해지고 있다. 호스트 메모리와 GPU 메모리를 하나의 주소 공간으로 통합하는 통합 가상 메모리(Unified Virtual Memory, UVM)는, 물리적 용량을 초과하는 더 많은 메모리를 GPU가 활용할 수 있게 해준다. 그러나 이러한 이점은 호스트 메모리에 접근할 때 상당한 오버헤드가 발생한다는 대가를 동반한다. 기존의 프리패칭(prefetching) 기법들은 이러한 오버헤드를 완화하는 데 도움이 되지만, 불규칙한 작업과 동적 혼합 작업을 다룰 때는 여전히 어려움에 직면한다. 본 논문에서는 작업의 규칙성이 GPU의 스트리밍 멀티프로세서(Streaming Multiprocessors, SMs) 간에 UVM 메모리 블록이 공유되는 상태와 강하게 상관관계가 있으며, 이는 곧 프리패칭의 효과에 영향을 미친다는 점을 입증한다. 또한, 접근한 메모리 블록의 공유 상태에 따라 프리패칭 전략을 동적으로 조정하는 Sharing Aware preFEtching 기법인 SAFE를 제안한다. SAFE는 통합 TLB(unified TLB, uTLB)를 활용하여 메모리 블록의 공유 상태를 효율적으로 추적하고, 각 블록에 대해 맞춤형 프리패칭 설정을 적용한다. 이 접근법은 하드웨어 수정이 필요 없으며 성능 오버헤드는 미미하다. 평가 결과, SAFE는 주로 불규칙한 메모리 접근 패턴을 갖는 작업에서 UVM 기본 프리패처 대비 최대 6.5배의 성능 향상을 달성했으며, 평균 향상은 3.6배였다.

https://doi.org/10.1109/lca.2025.3553143

Computer science

Memory management

Parallel computing

Computer architecture

Storage management

Virtual memory

Operating system

Overlay

Article

인용수 2

2022

CoreNap: Energy Efficient Core Allocation for Latency-Critical Workloads

Gyeongseo Park, Ki-Dong Kang, Minho Kim, Daehoon Kim

IF 2.3 (2022)

IEEE Computer Architecture Letters

데이터센터 서버에서 지연 민감(Latency-Critical, LC) 애플리케이션을 위한 동적 코어 할당은 서비스 수준 목표(Service Level Objective, SLO) 제약 하에서 에너지 효율을 향상시키는 데 중요한 역할을 할 수 있으며, 프로세서의 일부 하드웨어 구성요소를 꺼서 더 적은 전력을 소모하는 유휴 상태(즉, C-states)로 코어가 진입할 수 있도록 한다. 그러나 선행 연구들은 애플리케이션 스레드에 대한 코어 할당에 초점을 맞추고 네트워크 패킷 처리에 관여하는 코어를 고려하지 않았는데, 패킷 처리는 응답 지연뿐 아니라 에너지 소비에도 상당한 영향을 미치기 때문이다. 본 논문에서는 LC 애플리케이션을 실행하는 동안 네트워크 패킷 처리를 위한 명시적 코어 할당이 꼬리 응답 지연(tail response latency)과 에너지 소비에 미치는 영향을 처음으로 분석한다. 그 결과, 선행 연구가 수행한 것처럼 LC 애플리케이션 스레드에 대해서만 코어 수를 조정하는 것에 비해, 네트워크 패킷 처리를 위한 코어 수와 LC 애플리케이션 스레드를 위한 코어 수를 함께 조정하면 에너지 효율을 상당히 향상시킬 수 있음을 관찰하였다. 또한 LC 애플리케이션 스레드와 패킷 처리 모두에 대해 코어를 할당/비할당하는 동적 코어 할당 기법인 CoreNap을 제안한다. CoreNap는 애플리케이션 스레드와 패킷 처리를 각각 기준으로 CPU 활용률을 측정하고, 경량 예측 모델을 통해 코어 할당 조합을 강제했을 때의 응답 지연과 전력 소비를 예측한다. 이러한 예측을 바탕으로 CoreNap는 에너지 효율적인 코어 할당 조합을 선택/강제한다. 실험 결과, CoreNap는 병렬 패킷 처리 환경에서 LC 애플리케이션에 대해서만 코어를 조정하는 최신 연구와 비교하여 에너지 소비를 최대 18.6%까지 감소시키는 것으로 나타났다.

https://doi.org/10.1109/lca.2022.3227629

Latency (audio)

Computer science

Packet processing

Network packet

Multi-core processor

Energy consumption

Efficient energy use

Network processor

Server

Idle

전체 논문

Article

인용수 0

2026

ReplayOpt: Optimizer-State Replay to Resolve Critical-Path Bottlenecks in Offloaded Training

S.H. Bang, Gyeongseo Park, Kyeonghyeon Ryu, Daehoon Kim

IF 1.4 (2026)

IEEE Computer Architecture Letters

https://doi.org/10.1109/lca.2026.3676470

Training (meteorology)

Key (lock)

Exploit

The Internet

Server

Article

인용수 0

2026

Hisui: Unlocking Tiered Memory Efficiency for FaaS Workloads

Seonggyu Han, Sangwoong Kim, Minho Kim, Daehoon Kim

IF 1.4 (2026)

IEEE Computer Architecture Letters

https://doi.org/10.1109/lca.2026.3654119

Server

Cloud computing

Latency (audio)

Reuse

Throughput

Memory management

Article

인용수 0

2026

Nighthawk: Zero-Copy Cache Quarantine for Invisible Speculation

Minwoo Jang, Sungju Kim, Daehoon Kim

IF 1.4 (2026)

IEEE Computer Architecture Letters

https://doi.org/10.1109/lca.2026.3677441

Speculation

Cache

Speculative multithreading

Set (abstract data type)

Article

인용수 1

2025

SAFE: Sharing-Aware Prefetching for Efficient GPU Memory Management With Unified Virtual Memory

Hyunkyun Shin, S.H. Bang, Hyoungwon Park, Daehoon Kim

IF 1.4 (2025)

IEEE Computer Architecture Letters

https://doi.org/10.1109/lca.2025.3553143

Computer science

Memory management

Parallel computing

Computer architecture

Storage management

Virtual memory

Operating system

Overlay

Article

인용수 2

2022

CoreNap: Energy Efficient Core Allocation for Latency-Critical Workloads

Gyeongseo Park, Ki-Dong Kang, Minho Kim, Daehoon Kim

IF 2.3 (2022)

IEEE Computer Architecture Letters

https://doi.org/10.1109/lca.2022.3227629

Latency (audio)

Computer science

Packet processing

Network packet

Multi-core processor

Energy consumption

Efficient energy use

Network processor

Server

Idle

Article

인용수 0

2026

ARIADNE: Adaptive UVM Management for Efficient GPU Memory Oversubscription

Hyunkyun Shin, S.H. Bang, H. Park, Daehoon Kim

통합 가상 메모리(Unified Virtual Memory, UVM)는 GPU 프로그래밍을 단순화하고 메모리 오버서브스크립션을 지원하지만, 페이지 폴트 오버헤드와 스래싱(thrashing)으로 인해 높은 메모리 압력 하에서 심각한 성능 저하를 겪는다. 사전(prefetching), 접근 카운터 기반 마이그레이션, 동적 Zero-copy와 같은 기존 접근법은 제한적인 이점을 제공하며 종종 하드웨어 또는 컴파일러 수정이 필요하여, UVM의 이식성과 배포 용이성을 저해한다. 본 연구에서는 UVM의 GPU 메모리 추상화를 보존하면서 메모리 오버서브스크립션 하에서도 높은 수준의 견고한 성능을 보장하는 런타임 UVM 관리 프레임워크 ARIADNE을 제시한다. ARIADNE은 세 가지 원칙에 의해 안내된다: (1) 마이그레이션 지연을 숨기기 위한 파이프라인화된 폴트 처리, (2) 하드웨어나 컴파일러 변경 없이도 스레드 수준의 접근 국소성을 포착하는 런타임 지표인 Sharing Degree를 통해 배치 결정을 정보화하고, (3) 실시간 접근 패턴에 따라 GPU 메모리와 Zero-copy 사이에서 메모리 영역을 동적으로 배치한다. ARIADNE은 NVIDIA의 UVM 드라이버 내부에서 완전히 구현되었으며, 재컴파일이나 하드웨어 수정이 필요 없고 모든 실행 파일 또는 폐쇄형(Closed-source) GPU UVM 응용에 대해 투명하게 적용된다. 실험 결과는 ARIADNE이 각각 1.9 ×, 5.0 ×, 4.8 ×의 평균 속도 향상을 상태 최신 기법 대비 제공하며,

1 3 0 %, 1 7 5 %

및 300 % 오버서브스크립션에서 스래싱을 효과적으로 방지하면서 거의 선형적인 성능 스케일링을 유지함을 보여준다.

https://doi.org/10.1109/hpca68181.2026.11408564

Key (lock)

Software

Random access memory

Memory management

Noise (video)

Article

인용수 2

2025

RoPIM: A Processing-in-Memory Architecture for Accelerating Rotary Positional Embedding in Transformer Models

Yunhyeong Jeon, Minwoo Jang, Hwanjun Lee, Yeji Jung, Jin Chul Jung, Jong-Geon Lee, Jinin So, Daehoon Kim

IF 1.4 (2025)

IEEE Computer Architecture Letters

주의 기반 Transformer 모델(예: GPT, BERT, LLaMA)의 등장은 자연어 처리(NLP) 분야에 혁신을 가져왔으며, 다양한 응용 전반에서 성능을 유의미하게 향상시켰다. 이러한 개선을 이끄는 핵심 요인 중 하나는 위치 임베딩(positional embeddings)의 사용으로, 이는 시퀀스 내 토큰 간의 문맥적 관계를 포착하는 데 중요하다. 그러나 기존 위치 임베딩 방법들은 특히 긴 시퀀스에서의 성능 오버헤드 관리와 인접 토큰 간의 관계를 효과적으로 포착하는 데 있어 어려움이 있다. 이에 대응하여, Rotary Positional Embedding(RoPE)는 긴 시퀀스에서도 모델 재학습(retraining) 없이 높은 정확도로 위치 정보를 임베딩할 수 있는 방법으로 부상하였다. 그럼에도 불구하고 RoPE는 추론(inference) 과정에서 상당한 성능 병목을 유발한다. 우리는 RoPE가 광범위한 데이터 이동과 실행 의존성으로 인해 GPU 실행 시간의 61%를 차지함을 관찰하였다. 본 논문에서는 Transformer 모델에서 RoPE 연산을 효율적으로 가속하기 위해 설계된 처리-메모리(Processing-In-Memory, PIM) 아키텍처인 RoPIM을 제안한다. RoPIM은 가속기 내에서 곱셈-덧셈(multiply-addition) 연산을 지원함으로써 칩 외(off-chip) 데이터 이동을 감소시키고, 병렬 데이터 재배열(parallel data rearrangement)을 통해 연산 의존성을 최소화하는 뱅크(bank) 수준 가속기를 활용하여 이를 달성한다. 또한 RoPIM은 뱅크 수준 및 로우(row) 수준 매핑(mapping)을 모두 활용하는 최적화된 데이터 매핑 전략을 제안하여, 병렬 실행을 가능하게 하고 뱅크 간 통신을 제거하며 DRAM 활성화(activations)를 감소시킨다. 실험 결과에 따르면 RoPIM은 기존 시스템과 비교하여 최대 307.9배의 성능 향상과 914.1배의 에너지 절감을 달성한다.

https://doi.org/10.1109/lca.2025.3535470

Computer science

Architecture

Embedding

Transformer

Computer architecture

Parallel computing

Embedded system

Artificial intelligence

Electrical engineering

Engineering

Article

인용수 0

2025

MTAT: Adaptive Fast Memory Management for Co-located Latency-Critical Workloads in Tiered Memory System

Minho Kim, Seonggyu Han, Gyeongseo Park, Daehoon Kim

현대의 데이터 센터는 단일 물리 서버를 여러 응용 프로그램 또는 가상 머신이 공유하는 멀티 테넌트 배포 모델을 점점 더 많이 사용하고 있다. 그러나 기존의 계층형 메모리 관리 기법은 페이지를 접근 빈도만을 기준으로 분류하여 메모리 계층 간 승격과 강등을 제어하면서, 지연 민감도(LC) 및 최선 노력(BE) 워크로드의 서로 다른 접근 패턴을 반영하지 못한다. LC 워크로드는 낮은 지연 응답을 요구하지만 지속적인 고빈도 접근이 결여되어 있으며, 그 결과 빈도 기반 계층화는 LC 데이터를 느린 메모리(SMem)로 강등시켜 응답성을 저하시킬 뿐 아니라 서비스 수준 목표(SLOs)를 위반한다.

https://doi.org/10.1145/3721462.3770767

Memory management

Physical address

Software deployment

Virtual memory

Extended memory

Data access

Service (business)

Flat memory model

Interleaved memory

Data management

Article

인용수 0

2025

CABANA : Cluster-Aware Query Batching for Accelerating Billion-Scale ANNS With Intel AMX

Minho Kim, Houxiang Ji, Jaeyoung Kang, Hwanjun Lee, Daehoon Kim, Nam Sung Kim

IF 1.4 (2025)

IEEE Computer Architecture Letters

검색 증강 생성(Retrieval-augmented generation, RAG) 시스템은 수십억 규모의 벡터 데이터베이스에서 관련 컨텍스트를 효율적으로 검색하기 위해 Approximate Nearest Neighbor Search(ANNS)를 점점 더 많이 활용하고 있다. IVF 기반 ANNS 프레임워크는 전반적으로 확장성이 우수하지만, 정밀 검색 단계는 특히 대량 쿼리 환경에서 GEMV 연산이 계산 집약적이기 때문에 병목으로 남아 있다. 이를 해결하기 위해, 우리는 CABANA를 제안한다. 이는 Intel Advanced Matrix Extensions(AMX)를 사용한 ANNS 가속 메커니즘을 위한 cluster-aware 쿼리 batching으로, 이러한 GEMV 연산을 고처리량 GEMM 연산으로 재구성한다. 동일한 클러스터를 대상으로 하는 쿼리를 집계함으로써, CABANA는 정밀 검색 동안 배치 연산을 가능하게 하여 계산 집약도와 메모리 접근의 규칙성을 유의미하게 향상시킨다. 수십억 규모 데이터셋에 대한 평가에서 CABANA는 기존의 SIMD 기반 구현을 능가하며, 최소한의 오버헤드로 최대

32.6 \times

더 높은 쿼리 처리량을 달성하는 동시에 높은 리콜 성능을 유지한다.

https://doi.org/10.1109/lca.2025.3596970

Computer science

Scale (ratio)

Cluster (spacecraft)

Operating system

Article

인용수 0

2025

pNet-gem5: Full-System Simulation With High-Performance Networking Enabled by Parallel Network Packet Processing

Jongmin Shin, S.H. Bang, Gyeongseo Park, Daehoon Kim

IF 1.4 (2025)

IEEE Computer Architecture Letters

데이터 센터에서 고성능 네트워킹 기술을 갖춘 최신 서버 프로세서는 (예: 100 기가비트 이더넷) 일반적으로 멀티-큐 NIC를 통해 병렬 패킷 처리를 지원하여, 다수의 코어가 막대한 트래픽 부하를 효율적으로 처리할 수 있게 한다. 그러나 gem5와 같은 기존 아키텍처 시뮬레이터는 이러한 기법을 지원하지 못하며, 오래된 네트워킹 모델로 인해 대역폭이 제한되는 문제를 겪는다. 최근 한 연구에서는 Data Plane Development Kit (DPDK)를 통한 사용자 공간 고성능 네트워킹을 지원하는 시뮬레이션 프레임워크를 도입했지만, 많은 응용 프로그램은 여전히 커널 기반 네트워킹에 의존한다. 이러한 한계를 해결하기 위해, 우리는 데이터 센터 아키텍처 연구를 목표로 고성능 네트워크 워크로드 하에서 서버 시스템을 모델링하도록 설계된 전(全)시스템 시뮬레이션 프레임워크인 pNet-gem5를 제시한다. pNet-gem5는 여러 하드웨어 큐와 보다 고도화된 인터럽트 메커니즘인 Message Signaled Interrupts (MSI)를 통합하여 멀티코어 시스템에서 병렬 패킷 처리를 지원함으로써 gem5를 확장하며, 이를 통해 각 NIC 큐를 자체 IRQ를 갖는 전용 코어에 매핑할 수 있다. 또한 하드웨어와 소프트웨어 간 패킷 분배를 확장 가능하고 구성 가능하게 지원하는 고성능 네트워크 인터페이스 및 디바이스 드라이버를 제공한다. 더 나아가, pNet-gem5는 패킷 분배와 스케줄링을 NIC 코어 로직으로부터 분리함으로써, 맞춤형 정책에 대한 유연한 실험을 가능하게 한다. 그 결과, pNet-gem5는 멀티-큐 NIC를 모델링하고 대역폭을 최대 46 Gbps까지 지원함으로써, 이전의 단지 몇 Gbps 수준에 머물던 제한을 크게 개선하고 오늘날의 수십 Gbps 네트워크와 더 밀접하게 정렬된 현대 서버 환경의 보다 현실적인 시뮬레이션을 가능하게 한다.

https://doi.org/10.1109/lca.2025.3577232

Computer science

Network processor

Packet processing

Network packet

Parallel processing

Processing delay

Packet switching

Computer network

Computer architecture

Parallel computing

주요 논문

*2026년 기준 최근 6년 이내 논문에 한해 Impact Factor가 표기됩니다.

Article

인용수 0

2026

ReplayOpt: Optimizer-State Replay to Resolve Critical-Path Bottlenecks in Offloaded Training

S.H. Bang, Gyeongseo Park, Kyeonghyeon Ryu, Daehoon Kim

IF 1.4 (2026)

IEEE Computer Architecture Letters

https://doi.org/10.1109/lca.2026.3676470

Training (meteorology)

Key (lock)

Exploit

The Internet

Server

Article

인용수 0

2026

Hisui: Unlocking Tiered Memory Efficiency for FaaS Workloads

Seonggyu Han, Sangwoong Kim, Minho Kim, Daehoon Kim

IF 1.4 (2026)

IEEE Computer Architecture Letters

https://doi.org/10.1109/lca.2026.3654119

Server

Cloud computing

Latency (audio)

Reuse

Throughput

Memory management

Article

인용수 0

2026

Nighthawk: Zero-Copy Cache Quarantine for Invisible Speculation

Minwoo Jang, Sungju Kim, Daehoon Kim

IF 1.4 (2026)

IEEE Computer Architecture Letters

https://doi.org/10.1109/lca.2026.3677441

Speculation

Cache

Speculative multithreading

Set (abstract data type)

Article

인용수 1

2025

SAFE: Sharing-Aware Prefetching for Efficient GPU Memory Management With Unified Virtual Memory

Hyunkyun Shin, S.H. Bang, Hyoungwon Park, Daehoon Kim

IF 1.4 (2025)

IEEE Computer Architecture Letters

https://doi.org/10.1109/lca.2025.3553143

Computer science

Memory management

Parallel computing

Computer architecture

Storage management

Virtual memory

Operating system

Overlay

Article

인용수 2

2022

CoreNap: Energy Efficient Core Allocation for Latency-Critical Workloads

Gyeongseo Park, Ki-Dong Kang, Minho Kim, Daehoon Kim

IF 2.3 (2022)

IEEE Computer Architecture Letters

https://doi.org/10.1109/lca.2022.3227629

Latency (audio)

Computer science

Packet processing

Network packet

Multi-core processor

Energy consumption

Efficient energy use

Network processor

Server

Idle

전체 논문

Article

인용수 0

2026

ReplayOpt: Optimizer-State Replay to Resolve Critical-Path Bottlenecks in Offloaded Training

S.H. Bang, Gyeongseo Park, Kyeonghyeon Ryu, Daehoon Kim

IF 1.4 (2026)

IEEE Computer Architecture Letters

https://doi.org/10.1109/lca.2026.3676470

Training (meteorology)

Key (lock)

Exploit

The Internet

Server

Article

인용수 0

2026

Hisui: Unlocking Tiered Memory Efficiency for FaaS Workloads

Seonggyu Han, Sangwoong Kim, Minho Kim, Daehoon Kim

IF 1.4 (2026)

IEEE Computer Architecture Letters

https://doi.org/10.1109/lca.2026.3654119

Server

Cloud computing

Latency (audio)

Reuse

Throughput

Memory management

Article

인용수 0

2026

Nighthawk: Zero-Copy Cache Quarantine for Invisible Speculation

Minwoo Jang, Sungju Kim, Daehoon Kim

IF 1.4 (2026)

IEEE Computer Architecture Letters

https://doi.org/10.1109/lca.2026.3677441

Speculation

Cache

Speculative multithreading

Set (abstract data type)

Article

인용수 1

2025

SAFE: Sharing-Aware Prefetching for Efficient GPU Memory Management With Unified Virtual Memory

Hyunkyun Shin, S.H. Bang, Hyoungwon Park, Daehoon Kim

IF 1.4 (2025)

IEEE Computer Architecture Letters

https://doi.org/10.1109/lca.2025.3553143

Computer science

Memory management

Parallel computing

Computer architecture

Storage management

Virtual memory

Operating system

Overlay

Article

인용수 2

2022

CoreNap: Energy Efficient Core Allocation for Latency-Critical Workloads

Gyeongseo Park, Ki-Dong Kang, Minho Kim, Daehoon Kim

IF 2.3 (2022)

IEEE Computer Architecture Letters

https://doi.org/10.1109/lca.2022.3227629

Latency (audio)

Computer science

Packet processing

Network packet

Multi-core processor

Energy consumption

Efficient energy use

Network processor

Server

Idle

Article

인용수 0

2026

ARIADNE: Adaptive UVM Management for Efficient GPU Memory Oversubscription

Hyunkyun Shin, S.H. Bang, H. Park, Daehoon Kim

1 3 0 %, 1 7 5 %

및 300 % 오버서브스크립션에서 스래싱을 효과적으로 방지하면서 거의 선형적인 성능 스케일링을 유지함을 보여준다.

https://doi.org/10.1109/hpca68181.2026.11408564

Key (lock)

Software

Random access memory

Memory management

Noise (video)

Article

인용수 2

2025

RoPIM: A Processing-in-Memory Architecture for Accelerating Rotary Positional Embedding in Transformer Models

Yunhyeong Jeon, Minwoo Jang, Hwanjun Lee, Yeji Jung, Jin Chul Jung, Jong-Geon Lee, Jinin So, Daehoon Kim

IF 1.4 (2025)

IEEE Computer Architecture Letters

https://doi.org/10.1109/lca.2025.3535470

Computer science

Architecture

Embedding

Transformer

Computer architecture

Parallel computing

Embedded system

Artificial intelligence

Electrical engineering

Engineering

Article

인용수 0

2025

MTAT: Adaptive Fast Memory Management for Co-located Latency-Critical Workloads in Tiered Memory System

Minho Kim, Seonggyu Han, Gyeongseo Park, Daehoon Kim

https://doi.org/10.1145/3721462.3770767

Memory management

Physical address

Software deployment

Virtual memory

Extended memory

Data access

Service (business)

Flat memory model

Interleaved memory

Data management

Article

인용수 0

2025

CABANA : Cluster-Aware Query Batching for Accelerating Billion-Scale ANNS With Intel AMX

Minho Kim, Houxiang Ji, Jaeyoung Kang, Hwanjun Lee, Daehoon Kim, Nam Sung Kim

IF 1.4 (2025)

IEEE Computer Architecture Letters

32.6 \times

더 높은 쿼리 처리량을 달성하는 동시에 높은 리콜 성능을 유지한다.

https://doi.org/10.1109/lca.2025.3596970

Computer science

Scale (ratio)

Cluster (spacecraft)

Operating system

Article

인용수 0

2025

pNet-gem5: Full-System Simulation With High-Performance Networking Enabled by Parallel Network Packet Processing

Jongmin Shin, S.H. Bang, Gyeongseo Park, Daehoon Kim

IF 1.4 (2025)

IEEE Computer Architecture Letters

https://doi.org/10.1109/lca.2025.3577232

Computer science

Network processor

Packet processing

Network packet

Parallel processing

Processing delay

Packet switching

Computer network

Computer architecture

Parallel computing