RnDCircle Logo
김장우 연구실
서울대학교 전기·정보공학부 김장우 교수
FPGA 하드웨어 가속기
이기종 디바이스 오케스트레이션
신경망 가속 아키텍처
연구 영역
기본 정보
논문·특허
과제
구성원

김장우 연구실

서울대학교 전기·정보공학부 김장우 교수

김장우 연구실은 FPGA 및 데이터센터 시스템 관점에서 컴퓨터 아키텍처를 설계하고, 신경망 연산과 데이터 이동을 함께 최적화하는 연구를 수행합니다. 모듈형 하드웨어 가속기 구조와 메모리·통신 관리 기반 다중 모델 실행, 이기종 장치 오케스트레이션을 통해 학습 및 추론 가속 성능을 높이는 방법을 다룹니다. 또한 immersion cooling 기반 워크로드-인지 온도 스케일링으로 데이터센터 비용과 운영 효율을 분석·최적화하고, 서버 시스템 모델링과 고속/고정밀 시뮬레이션 플랫폼을 구축합니다. 이와 더불어 computational storage virtualization 및 네트워크 기반 스토리지 프로토콜의 성능 특성을 하드웨어-소프트웨어 연계 관점에서 분석합니다.

FPGA 하드웨어 가속기이기종 디바이스 오케스트레이션신경망 가속 아키텍처데이터센터 시스템 설계침지냉각 데이터센터
대표 연구 분야
연구 영역 전체보기
재구성 가능한 FPGA 기반 DNN/NLP 가속과 다중 모델 실행 thumbnail
재구성 가능한 FPGA 기반 DNN/NLP 가속과 다중 모델 실행
Reconfigurable FPGA-based DNN/NLP Acceleration for Multi-Model Execution
연구 분야 상세보기
연구 성과 추이
표시된 성과는 수집된 데이터 기준으로 산출되며, 일부 차이가 있을 수 있습니다.

5개년 연도별 논문 게재 수

34총합

5개년 연도별 피인용 수

638총합
주요 논문
5
논문 전체보기
1
Article
|
·
인용수 0
·
2026
Architecting a Full-Stack Superconducting Fault-Tolerant Quantum Computer
Jangwoo Kim, Junpyo Kim, Junhyuk Choi, Jungmin Cho, Juwon Hong, HYEONSEONG JEONG, Dongmoon Min, Ilkwon Byun, Masamitsu Tanaka, K. Inoue
IF 2.9 (2026)
IEEE Micro
실용적인 규모의 양자 프로그램을 실행하기 위해, 컴퓨터 아키텍트들은 런타임 동안 다수의 오류가 있는 물리적 큐비트를 교정함으로써 결함 허용 논리 큐비트를 구축하는 결함 허용 양자 컴퓨팅(FTQC)을 실현하기 위해 막대한 노력을 기울여 왔다. 그러나 서로 이질적인 스택들로 구성된 전체 스택(full-stack) FTQC 시스템을 구축하는 일은, 각 스택이 결함 허용과 그 상호작용과 관련하여 고유한 과제를 수반하며, 이러한 과제들의 상호작용이 매우 복잡한 전반적 설계 선택 문제로 이어지기 때문에 극도로 어렵다. 따라서 컴퓨터 아키텍트들은 스택별 최적화와 시스템 수준의 상충(trade-offs)을 충분히 이해하고, 모든 과제를 함께 해결해야 한다. 본 기사에서는 초전도(superconducting) 기술을 기반으로 하는 FTQC 시스템을 설계할 때의 핵심 설계 과제를 먼저 소개한 후, 수천 개의 논리 큐비트를 구현하는 FTQC 시스템을 구축하기 위해 해당 과제들을 해결한 우리의 연구 성과를 제시한다. 또한 남아 있는 과제를 해결하기 위한 향후 근미래 방향을 개략적으로 제시하고, 더 확장 가능한 미래의 FTQC 시스템을 실현하는 데 기여할 인사이트를 제공한다.
https://doi.org/10.1109/mm.2026.3665565
Quantum computer
Scalability
Qubit
Fault tolerance
Quantum
Stack (abstract data type)
2
Article
|
·
인용수 0
·
2025
MangoBoost Alice: Extremely Fast, Seamless, and Versatile FPGA-Accelerated DPU Solutions
Heetaek Jeong, Won-Sik Lee, Eunjin Baek, Changsu Kim, Changyeon Jo, Dongju Chae, Kanghyun Choi, Hamin Jang, Mohamed A. Elgammal, S.K. Hong, Eriko Nurvitadhi, Dongup Kwon, Jangwoo Kim
IF 2.9 (2025)
IEEE Micro
데이터 처리 장치(DPU)는 데이터 센터에서 데이터 처리 인프라 작업을 오프로드하도록 하는 전문화된 하드웨어로 부상해 왔다. 그러나 다양한 종류와 엄격한 성능 요구로 인해 이러한 작업을 효과적으로 가속하는 DPU를 구축하는 것은 매우 어렵다. 또한 DPU는 사용과 배치가 용이해야 하며, 다양한 인프라 표준과의 호환성을 갖추어야 하고, 빠르게 진화하는 워크로드 경향에 맞게 적응할 수 있어야 하므로, DPU 개발은 더욱 더 큰 난제를 동반한다. 본 연구에서는 광범위한 데이터 처리 작업에 대해 빠르고 유연하며 다목적이고 사용하기 쉬운 솔루션을 제공하도록 설계된 상용(field-programmable gate array 기반) DPU 제품군 MangoBoost Alice를 제시한다. 각 MangoBoost Alice는 핵심 인프라 도메인에 최적화되어 있으며, 완전히 하드웨어 가속된다. 더 나아가 고품질 MangoBoost Alice의 신속한 개발과 제품화를 가능하게 하기 위해, DPU 제품 개발 전 과정을 가속하는 엔드투엔드 개발 프레임워크 Mango-DevBoost를 제안한다. 대표적인 데이터 센터 워크로드에서 MangoBoost Alice 제품을 평가한 결과, 기본(기준) 구성 대비 최대 3.6배 높은 성능 효율을 보였다.
https://doi.org/10.1109/mm.2025.3593408
Key (lock)
Variety (cybernetics)
Data center
Workload
Data processing
Multi-core processor
Product (mathematics)
Baseline (sea)
3
Article
|
·
인용수 0
·
2025
FS 2 : A Fast, Scalable, and Flexible Switching System for Emerging Interconnects
Heetaek Jeong, Kanghyun Choi, Hamin Jang, Dongup-Kwon, Eunjin Baek, Pyeongsu Park, Jangwoo Kim
IF 2.9 (2025)
IEEE Micro
CXL 및 CCIX와 같은 캐시 일관성(interconnects)은 공유 주소 공간을 위한 캐시 일관성 덕분에 도입되었다. 그러나 빅데이터 애플리케이션에서 메모리 요구가 지속적으로 증가하는 상황에서, 10~100대 수준의 장치로 이러한 인터커넥트를 확장하는 것은 어렵다는 점을 관찰하였다. 본 논문에서는 이러한 인터커넥트 위에 스위치 보조(switch-assisted) 확장 가능 시스템 아키텍처를 제안한다. 구체적으로, 인터커넥트 스위치 내에 공유 캐시를 도입하여 데이터 재사용(data reuse) 기회를 효율적으로 활용하고, 작업 부하 패턴에 따라 토폴로지(topologies)를 유연하게 변경함으로써 토폴로지적 한계를 극복한다. 평가는 본 논문의 스위치 보조 아키텍처가 네이티브 설계(native designs) 대비 더 높은 확장성과 최대 4.4× 향상된 성능을 제공함을 보여준다.
https://doi.org/10.1109/mm.2025.3574732
Computer science
Scalability
Parallel computing
Interconnection
Very-large-scale integration
Embedded system
Computer architecture
Operating system
Computer network
최신 정부 과제
47
과제 전체보기
1
2024년 3월-2027년 12월
|2,083,334,000
시뮬레이션 기반 고속/고정확도 데이터센터 워크로드/시스템 분석 플랫폼 개발
● 데이터 센터에서 대규모 AI 워크로드를 최적으로 실행하기 위한 NPU, PIM 등의 AI 반도체를 탑재하는 단일 서버 시스템 하드웨어 구성을 도출하기 위한 고속/고정밀 시뮬레이션/프로파일링 플랫폼 개발- 고속/고정밀 시뮬레이션/프로파일링 플랫폼을 통해 대규모 AI 워크로드에 따른 최적의 하드웨어 구성으로 유휴 하드웨어 자원을 최소화하여 구축 비용 및 에...
대규모 AI 워크로드 분석
서버 시스템 모델링
서버 시스템 프로파일링
AI 반도체 데이터센터
고속/고정밀 시뮬레이터
2
2024년 3월-2027년 12월
|1,742,000,000
시뮬레이션 기반 고속/고정확도 데이터센터 워크로드/시스템 분석 플랫폼 개발
● 데이터 센터에서 대규모 AI 워크로드를 최적으로 실행하기 위한 NPU, PIM 등의 AI 반도체를 탑재하는 단일 서버 시스템 하드웨어 구성을 도출하기 위한 고속/고정밀 시뮬레이션/프로파일링 플랫폼 개발- 고속/고정밀 시뮬레이션/프로파일링 플랫폼을 통해 대규모 AI 워크로드에 따른 최적의 하드웨어 구성으로 유휴 하드웨어 자원을 최소화하여 구축 비용 및 에...
대규모 AI 워크로드 분석
서버 시스템 모델링
서버 시스템 프로파일링
AI 반도체 데이터센터
고속/고정밀 시뮬레이터
3
2024년 3월-2027년 12월
|1,566,667,000
시뮬레이션 기반 고속/고정확도 데이터센터 워크로드/시스템 분석 플랫폼 개발
● 데이터 센터에서 대규모 AI 워크로드를 최적으로 실행하기 위한 NPU, PIM 등의 AI 반도체를 탑재하는 단일 서버 시스템 하드웨어 구성을 도출하기 위한 고속/고정밀 시뮬레이션/프로파일링 플랫폼 개발- 고속/고정밀 시뮬레이션/프로파일링 플랫폼을 통해 대규모 AI 워크로드에 따른 최적의 하드웨어 구성으로 유휴 하드웨어 자원을 최소화하여 구축 비용 및 에...
대규모 AI 워크로드 분석
서버 시스템 모델링
서버 시스템 프로파일링
AI 반도체 데이터센터
고속/고정밀 시뮬레이터
최신 특허
특허 전체보기
상태출원연도과제명출원번호상세정보
등록2023TOE 기반 네트워크 인터페이스 카드 및 네트워크 인터페이스 방법1020230001424
등록2022스토리지 장치 및 연산 장치를 포함하는 가상화 장치, 및 이의 동작하는 방법1020220082341
등록2021메모리 네트워크 장치 및 이를 이용한 추론 방법1020210148527
전체 특허

TOE 기반 네트워크 인터페이스 카드 및 네트워크 인터페이스 방법

상태
등록
출원연도
2023
출원번호
1020230001424

스토리지 장치 및 연산 장치를 포함하는 가상화 장치, 및 이의 동작하는 방법

상태
등록
출원연도
2022
출원번호
1020220082341

메모리 네트워크 장치 및 이를 이용한 추론 방법

상태
등록
출원연도
2021
출원번호
1020210148527