김대훈 교수 연구실 | 연세대학교 시스템반도체공학과

김대훈 연구실

연세대학교 시스템반도체공학과 김대훈 교수

메모리 관리

계층형 메모리

캐시 아키텍처

|김대훈 교수 연구실

홈

연구 영역

기본 정보

논문·특허

과제

구성원

홈

김대훈 연구실

연세대학교 시스템반도체공학과 김대훈 교수

김대훈 연구실은 시스템반도체공학 관점에서 프로세서 및 분산·병렬 컴퓨터 구조, 시스템 소프트웨어 계열 기술을 중심으로 연구를 수행합니다. 이기종·가상 메모리 계층에서 성능 열화 요인을 규명하고 캐시 할당, UVM 프리페치 및 oversubscription 배치, 페이지 관리 정책을 런타임에 동적으로 적용하는 방법을 보유하고 있습니다. 또한 LLC 기반 Row Hammer 및 추측 실행 방어처럼 캐시 동작을 활용한 신뢰성·보안 완화 연구를 수행합니다. 나아가 DRAM PIM 기반 RoPE 가속, 네트워크 패킷 처리까지 포함한 코어 할당, 네트워크 모델이 반영된 full-system 시뮬레이션, 오프로드 학습의 임계 경로 최적화로 서버 효율을 확장하고 있습니다.

메모리 관리계층형 메모리캐시 아키텍처Unified Virtual MemoryProcessing-in-Memory

대표 연구 분야

연구 영역 전체보기

이기종·가상 메모리 계층의 동적 관리 연구

Dynamic Management for Heterogeneous and Virtual Memory Hierarchies

연구 분야 상세보기

이기종·가상 메모리 계층의 동적 관리 연구

Dynamic Management for Heterogeneous and Virtual Memory Hierarchies

연구 분야 상세보기

캐시 기반 보안 및 신뢰성 완화 연구

Cache-Based Security and Reliability Mitigation

연구 분야 상세보기

처리-메모리 및 서버 아키텍처 효율화 연구

Processing-in-Memory and Server Architecture Efficiency

연구 분야 상세보기

연구 성과 추이

표시된 성과는 수집된 데이터 기준으로 산출되며, 일부 차이가 있을 수 있습니다.

5개년 연도별 논문 게재 수

18총합

5개년 연도별 피인용 수

111총합

주요 논문

5

논문 전체보기

1

Article

|

·

인용수 0

·

2026

ReplayOpt: Optimizer-State Replay to Resolve Critical-Path Bottlenecks in Offloaded Training

S.H. Bang, Gyeongseo Park, Kyeonghyeon Ryu, Daehoon Kim

IF 1.4 (2026)

IEEE Computer Architecture Letters

CPU 오프로딩(offloaded) 학습은, 저정밀 가중치를 GPU에 유지하는 한편 고정밀 옵티마이저 상태를 호스트 메모리에 저장함으로써, 비교적 소규모 GPU 클러스터에서 수십억 스케일 모델의 학습을 가능하게 한다. 우리는 CPU 오프로딩 학습이 종종 PCIe 전송에 의해 병목이 생기는 것이 아니라, 고정밀 옵티마이저 상태를 호스트 메모리에 저장하는 과정이 다음 반복을 지연시켜 GPU를 정지시키기 때문에 병목이 발생한다는 점을 발견하였다. 우리의 측정에 따르면, 이러한 비중첩(non overlapped) 저장은 CPU 측 옵티마이저 시간의 최대 28%를 차지하며 다음 반복의 시작을 지연시켜 GPU가 유휴 상태에 머무르게 한다. 본 연구에서는 호스트 메모리 상태 저장을 임계 경로(critical path)에서 제거하기 위해 CPU–GPU 업데이트 스케줄을 재정렬하는 옵티마이저 설계인 ReplayOpt를 제안한다. ReplayOpt는 다음 반복의 저정밀 가중치를 먼저 생성하고 전송한 뒤, 배경에서 고정밀 상태 업데이트를 재생(replay)하여 호스트 메모리 기록(writebacks)을 임계 경로에서 제거한다. LLM 워크로드 전반에 걸쳐, ReplayOpt는 정확도 손실 없이 CPU 측 옵티마이저 시간을 최대 55.2% 감소시키고 단계(step) 시간을 최대 21.7% 감소시킨다.

https://doi.org/10.1109/lca.2026.3676470

Training (meteorology)

Key (lock)

Exploit

The Internet

Server

2

Article

|

·

인용수 0

·

2026

Hisui: Unlocking Tiered Memory Efficiency for FaaS Workloads

Seonggyu Han, Sangwoong Kim, Minho Kim, Daehoon Kim

IF 1.4 (2026)

IEEE Computer Architecture Letters

현대적 계층형 메모리 아키텍처는 물리적 용량이 큰 클라우드 서버에서 점점 더 널리 채택되고 있다. 그러나 그 성능 잠재력을 온전히 실현하기 위해서는 효과적인 페이지 관리가 필요하다. 기존 시스템은 장기간 수행되는 워크로드에 맞추어 조정되어 있으며, 주로 접근 횟수 기반의 승격(promtion)에 의존한다. 그러나 이러한 정책은 함수형 서비스(Function-as-a-Service, FaaS) 워크로드의 단명하며 이벤트 중심인 모델에 부적합하다. 그 결과 워크로드-아키텍처 간 불일치가 발생하여 페이지 배치가 부실해지고, 아키텍처 효율이 심각하게 저하된다. 본 연구에서는 FaaS 워크로드에 맞춘 FaaS 인지(tiered) 메모리 관리 시스템인 Hisui를 제시한다. Hisui는 두 가지 메커니즘을 통해 높은 예상 재사용성을 지닌 페이지를 단계적으로 배치한다: FMem 승인(admission) 필터와, 호출(invocation) 빈도에 가중치를 둔 평가(valuation)로서 이득(gain)이 큰 순서대로 페이지를 승격한다. Hisui는 접근 횟수 기반 기준선 대비 최대 1.57배 높은 처리량을 제공하며, 실제 워크로드에서 지연(latency)을 일관되게 낮춘다.

https://doi.org/10.1109/lca.2026.3654119

Server

Cloud computing

Latency (audio)

Reuse

Throughput

Memory management

3

Article

|

·

인용수 0

·

2026

Nighthawk: Zero-Copy Cache Quarantine for Invisible Speculation

Minwoo Jang, Sungju Kim, Daehoon Kim

IF 1.4 (2026)

IEEE Computer Architecture Letters

순서 외 실행은 프로세서 성능을 향상시키지만, 미세구조적 부수 효과를 통해 기밀 데이터를 유출하는 일시적 실행 취약점을 초래한다. 기존 방어 기법은 종종 전용 버퍼나 복잡한 포워딩 로직과 같은 침습적인 하드웨어 수정이 필요하며, 그 결과 성능 저하가 과도해진다. 본 연구에서는 보조 구조물의 면적 오버헤드 없이 투기적 로드를 격리하기 위해 기존 캐시 웨이(cache way)를 재목적화하는 경량 방어 기법 Nighthawk를 제안한다. Nighthawk는 캐시 내 격리(in-cache quarantine) 메커니즘을 도입하여, 투기적 데이터의 버퍼링을 위해 특정 캐시 웨이를 동적으로 할당함으로써, 디커플드 버퍼 설계에 내재된 데이터 복사 지연을 사실상 제거한다. 이 메커니즘을 Speculative Taint Tracking (STT)과 통합함으로써, STT의 제한적인 스톨(stall) 정책을 선인출(prefetch)하되 격리하는 전략으로 전환한다. 본 접근은 투기적 미스가 격리된 웨이로 진행되도록 허용하되, 해결 전까지는 미세구조적 전파를 차단함으로써 메모리 수준 병렬성을 회복한다. gem5를 사용하여 SPEC CPU2006/2017 벤치마크로 평가한 결과, Nighthawk는 STT로 인해 상실된 성능을 회복하며, 평균 실행 시간 6.2% 감소 및 메모리 집약적 워크로드에서 최대 28.8% 감소를 보인다. 이는 보안성과 고성능을 모두 요구하는 프로세서를 위한 보다 실용적인 설계 지점을 제공한다.

https://doi.org/10.1109/lca.2026.3677441

Speculation

Cache

Speculative multithreading

Set (abstract data type)

최신 정부 과제

20

과제 전체보기

1

2024년 3월-2028년 12월

|808,000,000원

LLM 구현을 위한 효율적인 메모리 관리 및 병렬화 기법을 갖는 추론연산 DRAM PIM 하드웨어 구조 개발

초거대 언어 모델 (LLM) 추론 시스템의 메모리 사용량 감소, 전력 효율성 향상, 및 처리율 향상을 지원하는 PIM 하드웨어, 컴파일러, 및 시스템 SW 개발하며 다음의 산출물을 가진다. ● HW 아키텍처 디자인: 희소화 및 양자화된 LLM 가속을 지원하는 PIM 아키텍처 및 전력 효율성 향상을 위한 HW-SW 기술 개발● 컴파일러: PIM 다중 이기종 ...

메모리 내재 연산

초거대 언어 모델

메모리 근접 연산

인공지능 가속기 컴파일러

인공지능 추론 시스템

2

주관|

2020년 2월-2023년 2월

|150,000,000원

마이크로서비스 구조에서 사용자 서비스 수준 목표(SLO) 만족을 위한 컴퓨팅 자원 관리 기술 및 통합 관리 프레임워크 연구 및 개발

- 1년차 세부 내용: 먼저, 다양한 종류의 마이크로서비스를 수행할 컴퓨팅 환경을 구축하고, 구축한 컴퓨팅 환경에서 각 마이크로서비스를 수행하여, 마이크로서비스 별로 컴퓨팅 자원 사용량을 분석하고, 각 컴퓨팅 자원(CPU, memory, storage, network 등) 및 소프트웨어의 상태 변화에 따른 마이크로서비스의 성능 변화를 관찰 및 분석한다. 이를 위해, 기존 자원 격리 기술들을 이용하여, 각 인스턴스에게 할당된 자원의 양을 조절하고 마이크로서비스의 응답 시간에 끼치는 영향을 관찰 및 분석한다. 또한, 이종 마이크로서비스 인스턴스들을 다양한 조합으로 한 컴퓨팅 노드에 배치해 봄으로, 다른 마이크로서비스로 인한 자원 간섭에 따른 종단 간 지연시간(end-to-end latency)의 영향을 분석한다. - 2년차 세부 내용: 먼저, 각 컴퓨팅 노드에서 마이크로서비스 인스턴스들 간 자원 간섭 및 포화상태를 주기적으로 관측하는 경량의 모니터(light-weight monitor)를 연구 및 개발한다. 컴퓨팅 자원 사용 정보 중 마이크로서비스의 성능에 영향이 큰 정보를 선별적으로 관리자에게 전송한다. 또한, 동적으로 모니터링 주기 및 요소를 조절하여, 실제 컴퓨팅 노드에 모니터링으로 인한 부하를 최소화하고, 실제 서비스의 응답시간에 영향을 주지 않는 모니터링 기술을 연구 및 개발한다. 다음으로, 각 컴퓨팅 노드에서 마이크로서비스 성능에 영향을 주는 자원이 부족하거나 간섭이 발생하면, 해당 자원을 격리 및 전용으로 할당하는 자원 관리 기술을 연구 및 개발한다. 모니터로부터 전달받은 정보를 기반으로 마이크로서비스의 성능을 예측하고, 성능 보장을 위해 변화하는 부하에 맞춰 마이크로서비스 인스턴스가 사용하는 컴퓨팅 자원을 동적으로 조절하며, 간섭이 발생하는 자원을 적절히 격리(isolation)하는 자원 관리 기술을 연구 및 개발한다. - 3년차: 하나의 서비스를 구성하는 마이크로서비스들의 의존성 및 실행 순서 등을 고려하여 종단간 지연시간을 파악하는 모니터링 기술을 연구 및 개발한다. 특히, 2년차에서 개발한 컴퓨팅 노드 수준의 모니터링과 연계하여 어느 마이크로서비스가 과도한 부하로 인해 응답시간을 초과하는지 빠르게 파악하고 대처할 수 있도록 한다. 다음으로, 모니터링을 통해 발견한 문제를 해결하기 위해, 마이크로서비스 간 네트워크 부하를 줄이고 컴퓨팅 자원 간섭 문제를 해결할 수 있는 마이크로서비스 인스턴스 배치 및 관리 정책을 연구하고 개발한다. 예를 들어, 간섭이 심한 서버에서 수행 중이던 인스턴스를 중지시키고 다른 노드에 인스턴스를 새롭게 생성한다든지, 하나의 마이크로서비스를 위해 여러 머신에 걸쳐 인스턴스를 배치시킬지 등을 서비스 수준의 인스턴스 관리기법을 연구 및 개발한다. 또한, 마이크로서비스 간의 매핑(mapping)을 새롭게 하거나, 인스턴스 간 패스(path)를 변경함으로써 지연시간을 개선할 수 있는 기술도 연구 및 개발한다. - 4년차: 1~3년차에 연구 및 개발한 기술들을 통합하여 서비스의 사용자 SLO를 만족시킬 수 있는 통합 프레임워크를 개발한다. 개발된 기술들이 효과적으로 통합되어, 어떠한 상황에서도 서비스 수준에서 사용자 SLO를 만족시킬 수 있도록 한다. 또한, 온라인으로 인스턴스들의 특성을 판단하여 배치할 수 있도록 온라인 프로파일링(profiling) 기법 연구 및 개발한다.

마이크로서비스

컴퓨팅 자원 관리 프레임워크

데이터센터 서버

사용자 서비스 수준 목표 만족

3

주관|

2020년 2월-2023년 2월

|150,000,000원

마이크로서비스 구조에서 사용자 서비스 수준 목표(SLO) 만족을 위한 컴퓨팅 자원 관리 기술 및 통합 관리 프레임워크 연구 및 개발

- 1년차 세부 내용: 먼저, 다양한 종류의 마이크로서비스를 수행할 컴퓨팅 환경을 구축하고, 구축한 컴퓨팅 환경에서 각 마이크로서비스를 수행하여, 마이크로서비스 별로 컴퓨팅 자원 사용량을 분석하고, 각 컴퓨팅 자원(CPU, memory, storage, network 등) 및 소프트웨어의 상태 변화에 따른 마이크로서비스의 성능 변화를 관찰 및 분석한다. 이를 위해, 기존 자원 격리 기술들을 이용하여, 각 인스턴스에게 할당된 자원의 양을 조절하고 마이크로서비스의 응답 시간에 끼치는 영향을 관찰 및 분석한다. 또한, 이종 마이크로서비스 인스턴스들을 다양한 조합으로 한 컴퓨팅 노드에 배치해 봄으로, 다른 마이크로서비스로 인한 자원 간섭에 따른 종단 간 지연시간(end-to-end latency)의 영향을 분석한다. - 2년차 세부 내용: 먼저, 각 컴퓨팅 노드에서 마이크로서비스 인스턴스들 간 자원 간섭 및 포화상태를 주기적으로 관측하는 경량의 모니터(light-weight monitor)를 연구 및 개발한다. 컴퓨팅 자원 사용 정보 중 마이크로서비스의 성능에 영향이 큰 정보를 선별적으로 관리자에게 전송한다. 또한, 동적으로 모니터링 주기 및 요소를 조절하여, 실제 컴퓨팅 노드에 모니터링으로 인한 부하를 최소화하고, 실제 서비스의 응답시간에 영향을 주지 않는 모니터링 기술을 연구 및 개발한다. 다음으로, 각 컴퓨팅 노드에서 마이크로서비스 성능에 영향을 주는 자원이 부족하거나 간섭이 발생하면, 해당 자원을 격리 및 전용으로 할당하는 자원 관리 기술을 연구 및 개발한다. 모니터로부터 전달받은 정보를 기반으로 마이크로서비스의 성능을 예측하고, 성능 보장을 위해 변화하는 부하에 맞춰 마이크로서비스 인스턴스가 사용하는 컴퓨팅 자원을 동적으로 조절하며, 간섭이 발생하는 자원을 적절히 격리(isolation)하는 자원 관리 기술을 연구 및 개발한다. - 3년차: 하나의 서비스를 구성하는 마이크로서비스들의 의존성 및 실행 순서 등을 고려하여 종단간 지연시간을 파악하는 모니터링 기술을 연구 및 개발한다. 특히, 2년차에서 개발한 컴퓨팅 노드 수준의 모니터링과 연계하여 어느 마이크로서비스가 과도한 부하로 인해 응답시간을 초과하는지 빠르게 파악하고 대처할 수 있도록 한다. 다음으로, 모니터링을 통해 발견한 문제를 해결하기 위해, 마이크로서비스 간 네트워크 부하를 줄이고 컴퓨팅 자원 간섭 문제를 해결할 수 있는 마이크로서비스 인스턴스 배치 및 관리 정책을 연구하고 개발한다. 예를 들어, 간섭이 심한 서버에서 수행 중이던 인스턴스를 중지시키고 다른 노드에 인스턴스를 새롭게 생성한다든지, 하나의 마이크로서비스를 위해 여러 머신에 걸쳐 인스턴스를 배치시킬지 등을 서비스 수준의 인스턴스 관리기법을 연구 및 개발한다. 또한, 마이크로서비스 간의 매핑(mapping)을 새롭게 하거나, 인스턴스 간 패스(path)를 변경함으로써 지연시간을 개선할 수 있는 기술도 연구 및 개발한다. - 4년차: 1~3년차에 연구 및 개발한 기술들을 통합하여 서비스의 사용자 SLO를 만족시킬 수 있는 통합 프레임워크를 개발한다. 개발된 기술들이 효과적으로 통합되어, 어떠한 상황에서도 서비스 수준에서 사용자 SLO를 만족시킬 수 있도록 한다. 또한, 온라인으로 인스턴스들의 특성을 판단하여 배치할 수 있도록 온라인 프로파일링(profiling) 기법 연구 및 개발한다.

마이크로서비스

컴퓨팅 자원 관리 프레임워크

데이터센터 서버

사용자 서비스 수준 목표 만족

최신 특허

특허 전체보기

상태	출원연도	과제명	출원번호
공개	2024	로우 해머링을 방지하기 위해 캐시 메모리를 제어하는 방법 및 장치	1020240048440
공개	2023	동적 캐시 할당을 위한 프로세서, 시스템 및 방법	1020230082190
등록	2020	송신 큐에 기초하여 인터럽트를 제어하는 전자 장치 및 이의 제어 방법	1020200189606

전체 특허

로우 해머링을 방지하기 위해 캐시 메모리를 제어하는 방법 및 장치

상태

공개

출원연도

2024

출원번호

1020240048440

상세 정보 바로가기

동적 캐시 할당을 위한 프로세서, 시스템 및 방법

상태

공개

출원연도

2023

출원번호

1020230082190

상세 정보 바로가기

송신 큐에 기초하여 인터럽트를 제어하는 전자 장치 및 이의 제어 방법

상태

등록

출원연도

2020

출원번호

1020200189606

상세 정보 바로가기