RnDCircle Logo
김장우 연구실
서울대학교 전기·정보공학부
김장우 교수
기본 정보
연구 분야
프로젝트
발행물
구성원

김장우 연구실

서울대학교 전기·정보공학부 김장우 교수

김장우 연구실은 컴퓨터 아키텍처와 하드웨어 설계를 중심으로 AI 반도체, 이기종 가속 시스템, PIM, 스토리지 가상화, 데이터센터 시스템 최적화, 초저온·초전도 기반 차세대 컴퓨팅까지 폭넓게 연구하며, 고성능·고효율 컴퓨팅 시스템을 위한 구조 설계, 시뮬레이션, 평가 방법론과 실용적 시스템 기술을 함께 발전시키는 연구를 수행하고 있다.

대표 연구 분야
연구 영역 전체보기
컴퓨터 아키텍처 및 하드웨어 설계 thumbnail
컴퓨터 아키텍처 및 하드웨어 설계
주요 논문
5
논문 전체보기
1
article
|
인용수 1
·
2022
DLS: A Fast and Flexible Neural Network Training System With Fine-grained Heterogeneous Device Orchestration
Pyeongsu Park, Jaewon Lee, Heetaek Jeong, Jangwoo Kim
IF 6
IEEE Transactions on Parallel and Distributed Systems
Neural network accelerators (e.g., TPUs) have become mainstream devices in computing systems. Unfortunately, the existing accelerator-based systems for neural networks fail to fully leverage the acceleration opportunities due to the <italic xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink">limited flexibility</i> . Specifically, the majority of the accelerators focus on only the compute-intensive operations of neural networks (e.g., convolution and fully-connected layers). However, we identify that sub-optimal handling of <italic xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink">auxiliary operations</i> such as embedding and compression can incur non-trivial loss in terms of accuracy, training speed, and adaptability to new domains. The problem persists considering that recent advancements in neural networks often come from auxiliary operations. To effectively handle rapidly evolving auxiliary operations and maximize acceleration opportunities, we propose DLS, a holistic neural network acceleration system using heterogeneous computing devices. The key idea is to distribute compute-intensive operations on highly specialized ASICs for maximum performance, and auxiliary operations on flexible devices (e.g., FPGA, GPU) for better adaptability. We emphasize that a naïve integration of different devices fails to deliver high performance due to high communication overheads. To address this communication inefficiency, we propose an efficient FPGA-based device orchestration utilizing direct device-to-device communication and fine-grained operation scheduling. In this way, our system alleviates the communication overhead between heterogeneous devices by removing expensive kernel stack traversal and leveraging computation units and communication links in parallel. The evaluation using popular neural networks with emerging auxiliary operations shows that our system achieves both flexibility and high performance for various cases from single-accelerator training to distributed training (2.6–8.9× speedup).
https://doi.org/10.1109/tpds.2022.3144453
Computer science
Artificial neural network
Distributed computing
Scheduling (production processes)
Leverage (statistics)
Orchestration
Field-programmable gate array
Embedded system
Artificial intelligence
2
article
|
인용수 9
·
2021
An accurate and fair evaluation methodology for SNN-based inferencing with full-stack hardware design space explorations
Hunjun Lee, Chanmyeong Kim, Seung‐Ho Lee, Eunjin Baek, Jangwoo Kim
IF 6.5
Neurocomputing
https://doi.org/10.1016/j.neucom.2021.05.020
Spiking neural network
Computer science
Computation
Artificial neural network
Latency (audio)
Artificial intelligence
Machine learning
Computer engineering
Algorithm
3
article
|
인용수 45
·
2016
Graphene Folding in Si Rich Carbon Nanofibers for Highly Stable, High Capacity Li-Ion Battery Anodes
Ling Fei, Brian P. Williams, Sang Ha Yoo, Jangwoo Kim, Ghazal Shoorideh, Yong Lak Joo
IF 8.2
ACS Applied Materials & Interfaces
Silicon nanoparticles (Si NPs) wrapped by graphene in carbon nanofibers were obtained via electrospinning and subsequent thermal treatment. In this study, water-soluble poly(vinyl alcohol) (PVA) with low carbon yield is selected to make the process water-based and to achieve a high silicon yield in the composite. It was also found that increasing the amount of graphene helps keep the PVA fiber morphology after carbonization, while forming a graphene network. The fiber SEM and HRTEM images reveal that micrometer graphene is heavily folded into sub-micron scale fibers during electrospinning, while Si NPs are incorporated into the folds with nanospace in between. When applied to lithium-ion battery anodes, the Si/graphene/carbon nanofiber composites show a high reversible capacity of ∼2300 mAh g(-1) at a charging rate of 100 mA/g and a stable capacity of 1191 mAh g(-1) at 1 A/g after more than 200 cycles. The interconnected graphene network not only ensures the excellent conductivity but also serves as a buffering matrix for the mechanic stress caused by volume change; the nanospace between Si NPs and folded graphene provides the space needed for volume expansion.
https://doi.org/10.1021/acsami.5b10548
Materials science
Graphene
Electrospinning
Chemical engineering
Anode
Composite number
Nanofiber
Carbon nanofiber
Carbonization
Carbon fibers
정부 과제
47
과제 전체보기
1
2024년 3월-2027년 12월
|2,083,334,000
시뮬레이션 기반 고속/고정확도 데이터센터 워크로드/시스템 분석 플랫폼 개발
● 데이터 센터에서 대규모 AI 워크로드를 최적으로 실행하기 위한 NPU, PIM 등의 AI 반도체를 탑재하는 단일 서버 시스템 하드웨어 구성을 도출하기 위한 고속/고정밀 시뮬레이션/프로파일링 플랫폼 개발- 고속/고정밀 시뮬레이션/프로파일링 플랫폼을 통해 대규모 AI 워크로드에 따른 최적의 하드웨어 구성으로 유휴 하드웨어 자원을 최소화하여 구축 비용 및 에...
대규모 AI 워크로드 분석
서버 시스템 모델링
서버 시스템 프로파일링
AI 반도체 데이터센터
고속/고정밀 시뮬레이터
2
2024년 3월-2027년 12월
|1,742,000,000
시뮬레이션 기반 고속/고정확도 데이터센터 워크로드/시스템 분석 플랫폼 개발
● 데이터 센터에서 대규모 AI 워크로드를 최적으로 실행하기 위한 NPU, PIM 등의 AI 반도체를 탑재하는 단일 서버 시스템 하드웨어 구성을 도출하기 위한 고속/고정밀 시뮬레이션/프로파일링 플랫폼 개발- 고속/고정밀 시뮬레이션/프로파일링 플랫폼을 통해 대규모 AI 워크로드에 따른 최적의 하드웨어 구성으로 유휴 하드웨어 자원을 최소화하여 구축 비용 및 에...
대규모 AI 워크로드 분석
서버 시스템 모델링
서버 시스템 프로파일링
AI 반도체 데이터센터
고속/고정밀 시뮬레이터
3
2024년 3월-2027년 12월
|1,566,667,000
시뮬레이션 기반 고속/고정확도 데이터센터 워크로드/시스템 분석 플랫폼 개발
● 데이터 센터에서 대규모 AI 워크로드를 최적으로 실행하기 위한 NPU, PIM 등의 AI 반도체를 탑재하는 단일 서버 시스템 하드웨어 구성을 도출하기 위한 고속/고정밀 시뮬레이션/프로파일링 플랫폼 개발- 고속/고정밀 시뮬레이션/프로파일링 플랫폼을 통해 대규모 AI 워크로드에 따른 최적의 하드웨어 구성으로 유휴 하드웨어 자원을 최소화하여 구축 비용 및 에...
대규모 AI 워크로드 분석
서버 시스템 모델링
서버 시스템 프로파일링
AI 반도체 데이터센터
고속/고정밀 시뮬레이터
최신 특허
특허 전체보기
상태출원연도과제명출원번호상세정보
등록2023TOE 기반 네트워크 인터페이스 카드 및 네트워크 인터페이스 방법1020230001424
등록2022스토리지 장치 및 연산 장치를 포함하는 가상화 장치, 및 이의 동작하는 방법1020220082341
등록2021메모리 네트워크 장치 및 이를 이용한 추론 방법1020210148527
전체 특허

TOE 기반 네트워크 인터페이스 카드 및 네트워크 인터페이스 방법

상태
등록
출원연도
2023
출원번호
1020230001424

스토리지 장치 및 연산 장치를 포함하는 가상화 장치, 및 이의 동작하는 방법

상태
등록
출원연도
2022
출원번호
1020220082341

메모리 네트워크 장치 및 이를 이용한 추론 방법

상태
등록
출원연도
2021
출원번호
1020210148527