주요 논문
5
*2026년 기준 최근 6년 이내 논문에 한해 Impact Factor가 표기됩니다.
1
Article
|
·
인용수 0
·
2026ReplayOpt: Optimizer-State Replay to Resolve Critical-Path Bottlenecks in Offloaded Training
S.H. Bang, Gyeongseo Park, Kyeonghyeon Ryu, Daehoon Kim
IF 1.4 (2026)
IEEE Computer Architecture Letters
CPU 오프로딩(offloaded) 학습은, 저정밀 가중치를 GPU에 유지하는 한편 고정밀 옵티마이저 상태를 호스트 메모리에 저장함으로써, 비교적 소규모 GPU 클러스터에서 수십억 스케일 모델의 학습을 가능하게 한다. 우리는 CPU 오프로딩 학습이 종종 PCIe 전송에 의해 병목이 생기는 것이 아니라, 고정밀 옵티마이저 상태를 호스트 메모리에 저장하는 과정이 다음 반복을 지연시켜 GPU를 정지시키기 때문에 병목이 발생한다는 점을 발견하였다. 우리의 측정에 따르면, 이러한 비중첩(non overlapped) 저장은 CPU 측 옵티마이저 시간의 최대 28%를 차지하며 다음 반복의 시작을 지연시켜 GPU가 유휴 상태에 머무르게 한다. 본 연구에서는 호스트 메모리 상태 저장을 임계 경로(critical path)에서 제거하기 위해 CPU–GPU 업데이트 스케줄을 재정렬하는 옵티마이저 설계인 ReplayOpt를 제안한다. ReplayOpt는 다음 반복의 저정밀 가중치를 먼저 생성하고 전송한 뒤, 배경에서 고정밀 상태 업데이트를 재생(replay)하여 호스트 메모리 기록(writebacks)을 임계 경로에서 제거한다. LLM 워크로드 전반에 걸쳐, ReplayOpt는 정확도 손실 없이 CPU 측 옵티마이저 시간을 최대 55.2% 감소시키고 단계(step) 시간을 최대 21.7% 감소시킨다.
https://doi.org/10.1109/lca.2026.3676470
Training (meteorology)
Key (lock)
Exploit
The Internet
Server
2
Article
|
·
인용수 0
·
2026Hisui: Unlocking Tiered Memory Efficiency for FaaS Workloads
Seonggyu Han, Sangwoong Kim, Minho Kim, Daehoon Kim
IF 1.4 (2026)
IEEE Computer Architecture Letters
현대적 계층형 메모리 아키텍처는 물리적 용량이 큰 클라우드 서버에서 점점 더 널리 채택되고 있다. 그러나 그 성능 잠재력을 온전히 실현하기 위해서는 효과적인 페이지 관리가 필요하다. 기존 시스템은 장기간 수행되는 워크로드에 맞추어 조정되어 있으며, 주로 접근 횟수 기반의 승격(promtion)에 의존한다. 그러나 이러한 정책은 함수형 서비스(Function-as-a-Service, FaaS) 워크로드의 단명하며 이벤트 중심인 모델에 부적합하다. 그 결과 워크로드-아키텍처 간 불일치가 발생하여 페이지 배치가 부실해지고, 아키텍처 효율이 심각하게 저하된다. 본 연구에서는 FaaS 워크로드에 맞춘 FaaS 인지(tiered) 메모리 관리 시스템인 Hisui를 제시한다. Hisui는 두 가지 메커니즘을 통해 높은 예상 재사용성을 지닌 페이지를 단계적으로 배치한다: FMem 승인(admission) 필터와, 호출(invocation) 빈도에 가중치를 둔 평가(valuation)로서 이득(gain)이 큰 순서대로 페이지를 승격한다. Hisui는 접근 횟수 기반 기준선 대비 최대 1.57배 높은 처리량을 제공하며, 실제 워크로드에서 지연(latency)을 일관되게 낮춘다.
https://doi.org/10.1109/lca.2026.3654119
Server
Cloud computing
Latency (audio)
Reuse
Throughput
Memory management
3
Article
|
·
인용수 0
·
2026Nighthawk: Zero-Copy Cache Quarantine for Invisible Speculation
Minwoo Jang, Sungju Kim, Daehoon Kim
IF 1.4 (2026)
IEEE Computer Architecture Letters
순서 외 실행은 프로세서 성능을 향상시키지만, 미세구조적 부수 효과를 통해 기밀 데이터를 유출하는 일시적 실행 취약점을 초래한다. 기존 방어 기법은 종종 전용 버퍼나 복잡한 포워딩 로직과 같은 침습적인 하드웨어 수정이 필요하며, 그 결과 성능 저하가 과도해진다. 본 연구에서는 보조 구조물의 면적 오버헤드 없이 투기적 로드를 격리하기 위해 기존 캐시 웨이(cache way)를 재목적화하는 경량 방어 기법 Nighthawk를 제안한다. Nighthawk는 캐시 내 격리(in-cache quarantine) 메커니즘을 도입하여, 투기적 데이터의 버퍼링을 위해 특정 캐시 웨이를 동적으로 할당함으로써, 디커플드 버퍼 설계에 내재된 데이터 복사 지연을 사실상 제거한다. 이 메커니즘을 Speculative Taint Tracking (STT)과 통합함으로써, STT의 제한적인 스톨(stall) 정책을 선인출(prefetch)하되 격리하는 전략으로 전환한다. 본 접근은 투기적 미스가 격리된 웨이로 진행되도록 허용하되, 해결 전까지는 미세구조적 전파를 차단함으로써 메모리 수준 병렬성을 회복한다. gem5를 사용하여 SPEC CPU2006/2017 벤치마크로 평가한 결과, Nighthawk는 STT로 인해 상실된 성능을 회복하며, 평균 실행 시간 6.2% 감소 및 메모리 집약적 워크로드에서 최대 28.8% 감소를 보인다. 이는 보안성과 고성능을 모두 요구하는 프로세서를 위한 보다 실용적인 설계 지점을 제공한다.
https://doi.org/10.1109/lca.2026.3677441
Speculation
Cache
Speculative multithreading
Set (abstract data type)
4
Article
|
·
인용수 1
·
2025SAFE: Sharing-Aware Prefetching for Efficient GPU Memory Management With Unified Virtual Memory
Hyunkyun Shin, S.H. Bang, Hyoungwon Park, Daehoon Kim
IF 1.4 (2025)
IEEE Computer Architecture Letters
기계 학습과 같은 응용에서 GPU 메모리에 대한 수요가 기하급수적으로 계속 증가함에 따라, GPU 메모리 용량을 최대화하는 일이 점점 더 중요해지고 있다. 호스트 메모리와 GPU 메모리를 하나의 주소 공간으로 통합하는 통합 가상 메모리(Unified Virtual Memory, UVM)는, 물리적 용량을 초과하는 더 많은 메모리를 GPU가 활용할 수 있게 해준다. 그러나 이러한 이점은 호스트 메모리에 접근할 때 상당한 오버헤드가 발생한다는 대가를 동반한다. 기존의 프리패칭(prefetching) 기법들은 이러한 오버헤드를 완화하는 데 도움이 되지만, 불규칙한 작업과 동적 혼합 작업을 다룰 때는 여전히 어려움에 직면한다.
본 논문에서는 작업의 규칙성이 GPU의 스트리밍 멀티프로세서(Streaming Multiprocessors, SMs) 간에 UVM 메모리 블록이 공유되는 상태와 강하게 상관관계가 있으며, 이는 곧 프리패칭의 효과에 영향을 미친다는 점을 입증한다. 또한, 접근한 메모리 블록의 공유 상태에 따라 프리패칭 전략을 동적으로 조정하는 Sharing Aware preFEtching 기법인 SAFE를 제안한다. SAFE는 통합 TLB(unified TLB, uTLB)를 활용하여 메모리 블록의 공유 상태를 효율적으로 추적하고, 각 블록에 대해 맞춤형 프리패칭 설정을 적용한다. 이 접근법은 하드웨어 수정이 필요 없으며 성능 오버헤드는 미미하다. 평가 결과, SAFE는 주로 불규칙한 메모리 접근 패턴을 갖는 작업에서 UVM 기본 프리패처 대비 최대 6.5배의 성능 향상을 달성했으며, 평균 향상은 3.6배였다.
https://doi.org/10.1109/lca.2025.3553143
Computer science
Memory management
Parallel computing
Computer architecture
Storage management
Virtual memory
Operating system
Overlay
5
Article
|
·
인용수 2
·
2022CoreNap: Energy Efficient Core Allocation for Latency-Critical Workloads
Gyeongseo Park, Ki-Dong Kang, Minho Kim, Daehoon Kim
IF 2.3 (2022)
IEEE Computer Architecture Letters
데이터센터 서버에서 지연 민감(Latency-Critical, LC) 애플리케이션을 위한 동적 코어 할당은 서비스 수준 목표(Service Level Objective, SLO) 제약 하에서 에너지 효율을 향상시키는 데 중요한 역할을 할 수 있으며, 프로세서의 일부 하드웨어 구성요소를 꺼서 더 적은 전력을 소모하는 유휴 상태(즉, C-states)로 코어가 진입할 수 있도록 한다. 그러나 선행 연구들은 애플리케이션 스레드에 대한 코어 할당에 초점을 맞추고 네트워크 패킷 처리에 관여하는 코어를 고려하지 않았는데, 패킷 처리는 응답 지연뿐 아니라 에너지 소비에도 상당한 영향을 미치기 때문이다. 본 논문에서는 LC 애플리케이션을 실행하는 동안 네트워크 패킷 처리를 위한 명시적 코어 할당이 꼬리 응답 지연(tail response latency)과 에너지 소비에 미치는 영향을 처음으로 분석한다. 그 결과, 선행 연구가 수행한 것처럼 LC 애플리케이션 스레드에 대해서만 코어 수를 조정하는 것에 비해, 네트워크 패킷 처리를 위한 코어 수와 LC 애플리케이션 스레드를 위한 코어 수를 함께 조정하면 에너지 효율을 상당히 향상시킬 수 있음을 관찰하였다. 또한 LC 애플리케이션 스레드와 패킷 처리 모두에 대해 코어를 할당/비할당하는 동적 코어 할당 기법인 CoreNap을 제안한다. CoreNap는 애플리케이션 스레드와 패킷 처리를 각각 기준으로 CPU 활용률을 측정하고, 경량 예측 모델을 통해 코어 할당 조합을 강제했을 때의 응답 지연과 전력 소비를 예측한다. 이러한 예측을 바탕으로 CoreNap는 에너지 효율적인 코어 할당 조합을 선택/강제한다. 실험 결과, CoreNap는 병렬 패킷 처리 환경에서 LC 애플리케이션에 대해서만 코어를 조정하는 최신 연구와 비교하여 에너지 소비를 최대 18.6%까지 감소시키는 것으로 나타났다.
https://doi.org/10.1109/lca.2022.3227629
Latency (audio)
Computer science
Packet processing
Network packet
Multi-core processor
Energy consumption
Efficient energy use
Network processor
Server
Idle