김장우 교수 연구실 | 서울대학교 전기·정보공학부

김장우 연구실

서울대학교 전기·정보공학부 김장우 교수

FPGA 하드웨어 가속기

이기종 디바이스 오케스트레이션

신경망 가속 아키텍처

|김장우 교수 연구실

홈

연구 영역

기본 정보

논문·특허

과제

구성원

홈

김장우 연구실

서울대학교 전기·정보공학부 김장우 교수

김장우 연구실은 FPGA 및 데이터센터 시스템 관점에서 컴퓨터 아키텍처를 설계하고, 신경망 연산과 데이터 이동을 함께 최적화하는 연구를 수행합니다. 모듈형 하드웨어 가속기 구조와 메모리·통신 관리 기반 다중 모델 실행, 이기종 장치 오케스트레이션을 통해 학습 및 추론 가속 성능을 높이는 방법을 다룹니다. 또한 immersion cooling 기반 워크로드-인지 온도 스케일링으로 데이터센터 비용과 운영 효율을 분석·최적화하고, 서버 시스템 모델링과 고속/고정밀 시뮬레이션 플랫폼을 구축합니다. 이와 더불어 computational storage virtualization 및 네트워크 기반 스토리지 프로토콜의 성능 특성을 하드웨어-소프트웨어 연계 관점에서 분석합니다.

FPGA 하드웨어 가속기이기종 디바이스 오케스트레이션신경망 가속 아키텍처데이터센터 시스템 설계침지냉각 데이터센터

대표 연구 분야

연구 영역 전체보기

재구성 가능한 FPGA 기반 DNN/NLP 가속과 다중 모델 실행

Reconfigurable FPGA-based DNN/NLP Acceleration for Multi-Model Execution

연구 분야 상세보기

재구성 가능한 FPGA 기반 DNN/NLP 가속과 다중 모델 실행

Reconfigurable FPGA-based DNN/NLP Acceleration for Multi-Model Execution

연구 분야 상세보기

워크로드-인지 데이터센터 저온 운영과 시뮬레이션 기반 성능/비용 최적화

Workload-Aware Low-Temperature Datacenter Operation and Simulation-Based Optimization

연구 분야 상세보기

계산 스토리지 가상화와 네트워크 기반 스토리지 시스템 아키텍처

Computational Storage Virtualization and Network-Based Storage System Architecture

연구 분야 상세보기

연구 성과 추이

표시된 성과는 수집된 데이터 기준으로 산출되며, 일부 차이가 있을 수 있습니다.

5개년 연도별 논문 게재 수

34총합

5개년 연도별 피인용 수

638총합

주요 논문

5

논문 전체보기

1

Article

|

·

인용수 0

·

2026

Architecting a Full-Stack Superconducting Fault-Tolerant Quantum Computer

Jangwoo Kim, Junpyo Kim, Junhyuk Choi, Jungmin Cho, Juwon Hong, HYEONSEONG JEONG, Dongmoon Min, Ilkwon Byun, Masamitsu Tanaka, K. Inoue

IF 2.9 (2026)

IEEE Micro

실용적인 규모의 양자 프로그램을 실행하기 위해, 컴퓨터 아키텍트들은 런타임 동안 다수의 오류가 있는 물리적 큐비트를 교정함으로써 결함 허용 논리 큐비트를 구축하는 결함 허용 양자 컴퓨팅(FTQC)을 실현하기 위해 막대한 노력을 기울여 왔다. 그러나 서로 이질적인 스택들로 구성된 전체 스택(full-stack) FTQC 시스템을 구축하는 일은, 각 스택이 결함 허용과 그 상호작용과 관련하여 고유한 과제를 수반하며, 이러한 과제들의 상호작용이 매우 복잡한 전반적 설계 선택 문제로 이어지기 때문에 극도로 어렵다. 따라서 컴퓨터 아키텍트들은 스택별 최적화와 시스템 수준의 상충(trade-offs)을 충분히 이해하고, 모든 과제를 함께 해결해야 한다. 본 기사에서는 초전도(superconducting) 기술을 기반으로 하는 FTQC 시스템을 설계할 때의 핵심 설계 과제를 먼저 소개한 후, 수천 개의 논리 큐비트를 구현하는 FTQC 시스템을 구축하기 위해 해당 과제들을 해결한 우리의 연구 성과를 제시한다. 또한 남아 있는 과제를 해결하기 위한 향후 근미래 방향을 개략적으로 제시하고, 더 확장 가능한 미래의 FTQC 시스템을 실현하는 데 기여할 인사이트를 제공한다.

https://doi.org/10.1109/mm.2026.3665565

Quantum computer

Scalability

Qubit

Fault tolerance

Quantum

Stack (abstract data type)

2

Article

|

·

인용수 0

·

2025

MangoBoost Alice: Extremely Fast, Seamless, and Versatile FPGA-Accelerated DPU Solutions

Heetaek Jeong, Won-Sik Lee, Eunjin Baek, Changsu Kim, Changyeon Jo, Dongju Chae, Kanghyun Choi, Hamin Jang, Mohamed A. Elgammal, S.K. Hong, Eriko Nurvitadhi, Dongup Kwon, Jangwoo Kim

IF 2.9 (2025)

IEEE Micro

데이터 처리 장치(DPU)는 데이터 센터에서 데이터 처리 인프라 작업을 오프로드하도록 하는 전문화된 하드웨어로 부상해 왔다. 그러나 다양한 종류와 엄격한 성능 요구로 인해 이러한 작업을 효과적으로 가속하는 DPU를 구축하는 것은 매우 어렵다. 또한 DPU는 사용과 배치가 용이해야 하며, 다양한 인프라 표준과의 호환성을 갖추어야 하고, 빠르게 진화하는 워크로드 경향에 맞게 적응할 수 있어야 하므로, DPU 개발은 더욱 더 큰 난제를 동반한다. 본 연구에서는 광범위한 데이터 처리 작업에 대해 빠르고 유연하며 다목적이고 사용하기 쉬운 솔루션을 제공하도록 설계된 상용(field-programmable gate array 기반) DPU 제품군 MangoBoost Alice를 제시한다. 각 MangoBoost Alice는 핵심 인프라 도메인에 최적화되어 있으며, 완전히 하드웨어 가속된다. 더 나아가 고품질 MangoBoost Alice의 신속한 개발과 제품화를 가능하게 하기 위해, DPU 제품 개발 전 과정을 가속하는 엔드투엔드 개발 프레임워크 Mango-DevBoost를 제안한다. 대표적인 데이터 센터 워크로드에서 MangoBoost Alice 제품을 평가한 결과, 기본(기준) 구성 대비 최대 3.6배 높은 성능 효율을 보였다.

https://doi.org/10.1109/mm.2025.3593408

Key (lock)

Variety (cybernetics)

Data center

Workload

Data processing

Multi-core processor

Product (mathematics)

Baseline (sea)

3

Article

|

·

인용수 0

·

2025

FS ² : A Fast, Scalable, and Flexible Switching System for Emerging Interconnects

Heetaek Jeong, Kanghyun Choi, Hamin Jang, Dongup-Kwon, Eunjin Baek, Pyeongsu Park, Jangwoo Kim

IF 2.9 (2025)

IEEE Micro

CXL 및 CCIX와 같은 캐시 일관성(interconnects)은 공유 주소 공간을 위한 캐시 일관성 덕분에 도입되었다. 그러나 빅데이터 애플리케이션에서 메모리 요구가 지속적으로 증가하는 상황에서, 10~100대 수준의 장치로 이러한 인터커넥트를 확장하는 것은 어렵다는 점을 관찰하였다. 본 논문에서는 이러한 인터커넥트 위에 스위치 보조(switch-assisted) 확장 가능 시스템 아키텍처를 제안한다. 구체적으로, 인터커넥트 스위치 내에 공유 캐시를 도입하여 데이터 재사용(data reuse) 기회를 효율적으로 활용하고, 작업 부하 패턴에 따라 토폴로지(topologies)를 유연하게 변경함으로써 토폴로지적 한계를 극복한다. 평가는 본 논문의 스위치 보조 아키텍처가 네이티브 설계(native designs) 대비 더 높은 확장성과 최대 4.4× 향상된 성능을 제공함을 보여준다.

https://doi.org/10.1109/mm.2025.3574732

Computer science

Scalability

Parallel computing

Interconnection

Very-large-scale integration

Embedded system

Computer architecture

Operating system

Computer network

최신 정부 과제

47

과제 전체보기

1

2024년 3월-2027년 12월

|2,083,334,000원

시뮬레이션 기반 고속/고정확도 데이터센터 워크로드/시스템 분석 플랫폼 개발

● 데이터 센터에서 대규모 AI 워크로드를 최적으로 실행하기 위한 NPU, PIM 등의 AI 반도체를 탑재하는 단일 서버 시스템 하드웨어 구성을 도출하기 위한 고속/고정밀 시뮬레이션/프로파일링 플랫폼 개발- 고속/고정밀 시뮬레이션/프로파일링 플랫폼을 통해 대규모 AI 워크로드에 따른 최적의 하드웨어 구성으로 유휴 하드웨어 자원을 최소화하여 구축 비용 및 에...

대규모 AI 워크로드 분석

서버 시스템 모델링

서버 시스템 프로파일링

AI 반도체 데이터센터

고속/고정밀 시뮬레이터

2

2024년 3월-2027년 12월

|1,742,000,000원

시뮬레이션 기반 고속/고정확도 데이터센터 워크로드/시스템 분석 플랫폼 개발

● 데이터 센터에서 대규모 AI 워크로드를 최적으로 실행하기 위한 NPU, PIM 등의 AI 반도체를 탑재하는 단일 서버 시스템 하드웨어 구성을 도출하기 위한 고속/고정밀 시뮬레이션/프로파일링 플랫폼 개발- 고속/고정밀 시뮬레이션/프로파일링 플랫폼을 통해 대규모 AI 워크로드에 따른 최적의 하드웨어 구성으로 유휴 하드웨어 자원을 최소화하여 구축 비용 및 에...

대규모 AI 워크로드 분석

서버 시스템 모델링

서버 시스템 프로파일링

AI 반도체 데이터센터

고속/고정밀 시뮬레이터

3

2024년 3월-2027년 12월

|1,566,667,000원

시뮬레이션 기반 고속/고정확도 데이터센터 워크로드/시스템 분석 플랫폼 개발

● 데이터 센터에서 대규모 AI 워크로드를 최적으로 실행하기 위한 NPU, PIM 등의 AI 반도체를 탑재하는 단일 서버 시스템 하드웨어 구성을 도출하기 위한 고속/고정밀 시뮬레이션/프로파일링 플랫폼 개발- 고속/고정밀 시뮬레이션/프로파일링 플랫폼을 통해 대규모 AI 워크로드에 따른 최적의 하드웨어 구성으로 유휴 하드웨어 자원을 최소화하여 구축 비용 및 에...

대규모 AI 워크로드 분석

서버 시스템 모델링

서버 시스템 프로파일링

AI 반도체 데이터센터

고속/고정밀 시뮬레이터

최신 특허

특허 전체보기

상태	출원연도	과제명	출원번호
등록	2023	TOE 기반 네트워크 인터페이스 카드 및 네트워크 인터페이스 방법	1020230001424
등록	2022	스토리지 장치 및 연산 장치를 포함하는 가상화 장치, 및 이의 동작하는 방법	1020220082341
등록	2021	메모리 네트워크 장치 및 이를 이용한 추론 방법	1020210148527

전체 특허

TOE 기반 네트워크 인터페이스 카드 및 네트워크 인터페이스 방법

상태

등록

출원연도

2023

출원번호

1020230001424

상세 정보 바로가기

스토리지 장치 및 연산 장치를 포함하는 가상화 장치, 및 이의 동작하는 방법

상태

등록

출원연도

2022

출원번호

1020220082341

상세 정보 바로가기

메모리 네트워크 장치 및 이를 이용한 추론 방법

상태

등록

출원연도

2021

출원번호

1020210148527

상세 정보 바로가기