주요 논문
5
*2026년 기준 최근 6년 이내 논문에 한해 Impact Factor가 표기됩니다.
1
Article
|
·
인용수 0
·
2026Architecting a Full-Stack Superconducting Fault-Tolerant Quantum Computer
Jangwoo Kim, Junpyo Kim, Junhyuk Choi, Jungmin Cho, Juwon Hong, HYEONSEONG JEONG, Dongmoon Min, Ilkwon Byun, Masamitsu Tanaka, K. Inoue
IF 2.9 (2026)
IEEE Micro
실용적인 규모의 양자 프로그램을 실행하기 위해, 컴퓨터 아키텍트들은 런타임 동안 다수의 오류가 있는 물리적 큐비트를 교정함으로써 결함 허용 논리 큐비트를 구축하는 결함 허용 양자 컴퓨팅(FTQC)을 실현하기 위해 막대한 노력을 기울여 왔다. 그러나 서로 이질적인 스택들로 구성된 전체 스택(full-stack) FTQC 시스템을 구축하는 일은, 각 스택이 결함 허용과 그 상호작용과 관련하여 고유한 과제를 수반하며, 이러한 과제들의 상호작용이 매우 복잡한 전반적 설계 선택 문제로 이어지기 때문에 극도로 어렵다. 따라서 컴퓨터 아키텍트들은 스택별 최적화와 시스템 수준의 상충(trade-offs)을 충분히 이해하고, 모든 과제를 함께 해결해야 한다. 본 기사에서는 초전도(superconducting) 기술을 기반으로 하는 FTQC 시스템을 설계할 때의 핵심 설계 과제를 먼저 소개한 후, 수천 개의 논리 큐비트를 구현하는 FTQC 시스템을 구축하기 위해 해당 과제들을 해결한 우리의 연구 성과를 제시한다. 또한 남아 있는 과제를 해결하기 위한 향후 근미래 방향을 개략적으로 제시하고, 더 확장 가능한 미래의 FTQC 시스템을 실현하는 데 기여할 인사이트를 제공한다.
https://doi.org/10.1109/mm.2026.3665565
Quantum computer
Scalability
Qubit
Fault tolerance
Quantum
Stack (abstract data type)
2
Article
|
·
인용수 0
·
2025MangoBoost Alice: Extremely Fast, Seamless, and Versatile FPGA-Accelerated DPU Solutions
Heetaek Jeong, Won-Sik Lee, Eunjin Baek, Changsu Kim, Changyeon Jo, Dongju Chae, Kanghyun Choi, Hamin Jang, Mohamed A. Elgammal, S.K. Hong, Eriko Nurvitadhi, Dongup Kwon, Jangwoo Kim
IF 2.9 (2025)
IEEE Micro
데이터 처리 장치(DPU)는 데이터 센터에서 데이터 처리 인프라 작업을 오프로드하도록 하는 전문화된 하드웨어로 부상해 왔다. 그러나 다양한 종류와 엄격한 성능 요구로 인해 이러한 작업을 효과적으로 가속하는 DPU를 구축하는 것은 매우 어렵다. 또한 DPU는 사용과 배치가 용이해야 하며, 다양한 인프라 표준과의 호환성을 갖추어야 하고, 빠르게 진화하는 워크로드 경향에 맞게 적응할 수 있어야 하므로, DPU 개발은 더욱 더 큰 난제를 동반한다. 본 연구에서는 광범위한 데이터 처리 작업에 대해 빠르고 유연하며 다목적이고 사용하기 쉬운 솔루션을 제공하도록 설계된 상용(field-programmable gate array 기반) DPU 제품군 MangoBoost Alice를 제시한다. 각 MangoBoost Alice는 핵심 인프라 도메인에 최적화되어 있으며, 완전히 하드웨어 가속된다. 더 나아가 고품질 MangoBoost Alice의 신속한 개발과 제품화를 가능하게 하기 위해, DPU 제품 개발 전 과정을 가속하는 엔드투엔드 개발 프레임워크 Mango-DevBoost를 제안한다. 대표적인 데이터 센터 워크로드에서 MangoBoost Alice 제품을 평가한 결과, 기본(기준) 구성 대비 최대 3.6배 높은 성능 효율을 보였다.
https://doi.org/10.1109/mm.2025.3593408
Key (lock)
Variety (cybernetics)
Data center
Workload
Data processing
Multi-core processor
Product (mathematics)
Baseline (sea)
3
Article
|
·
인용수 0
·
2025FS 2 : A Fast, Scalable, and Flexible Switching System for Emerging Interconnects
Heetaek Jeong, Kanghyun Choi, Hamin Jang, Dongup-Kwon, Eunjin Baek, Pyeongsu Park, Jangwoo Kim
IF 2.9 (2025)
IEEE Micro
CXL 및 CCIX와 같은 캐시 일관성(interconnects)은 공유 주소 공간을 위한 캐시 일관성 덕분에 도입되었다. 그러나 빅데이터 애플리케이션에서 메모리 요구가 지속적으로 증가하는 상황에서, 10~100대 수준의 장치로 이러한 인터커넥트를 확장하는 것은 어렵다는 점을 관찰하였다. 본 논문에서는 이러한 인터커넥트 위에 스위치 보조(switch-assisted) 확장 가능 시스템 아키텍처를 제안한다. 구체적으로, 인터커넥트 스위치 내에 공유 캐시를 도입하여 데이터 재사용(data reuse) 기회를 효율적으로 활용하고, 작업 부하 패턴에 따라 토폴로지(topologies)를 유연하게 변경함으로써 토폴로지적 한계를 극복한다. 평가는 본 논문의 스위치 보조 아키텍처가 네이티브 설계(native designs) 대비 더 높은 확장성과 최대 4.4× 향상된 성능을 제공함을 보여준다.
https://doi.org/10.1109/mm.2025.3574732
Computer science
Scalability
Parallel computing
Interconnection
Very-large-scale integration
Embedded system
Computer architecture
Operating system
Computer network
4
Article
|
·
인용수 1
·
2022DLS: A Fast and Flexible Neural Network Training System With Fine-grained Heterogeneous Device Orchestration
Pyeongsu Park, Jaewon Lee, Heetaek Jeong, Jangwoo Kim
IF 5.3 (2022)
IEEE Transactions on Parallel and Distributed Systems
신경망 가속기(예: TPU)는 컴퓨팅 시스템에서 주류 기기로 자리 잡았다. 그러나 유감스럽게도 기존의 신경망 가속기 기반 시스템은 제한된 유연성으로 인해 가속 기회를 충분히 활용하지 못한다. 구체적으로, 대부분의 가속기는 신경망의 계산 집약적 연산(예: 합성곱 및 완전연결 계층)에만 초점을 맞춘다. 하지만 우리는 임베딩 및 압축과 같은 보조 연산을 차선적으로 처리할 경우 정확도, 학습 속도, 그리고 새로운 도메인에 대한 적응성 측면에서 비의미하지 않은 손실이 발생할 수 있음을 확인하였다. 최근의 신경망 발전이 종종 보조 연산에서 비롯된다는 점을 고려하면 이러한 문제는 지속된다. 빠르게 진화하는 보조 연산을 효과적으로 처리하고 가속 기회를 극대화하기 위해, 우리는 이질적 컴퓨팅 장치를 활용하는 포괄적 신경망 가속 시스템인 DLS를 제안한다. 핵심 아이디어는 최대 성능을 위해 계산 집약적 연산은 고도로 특화된 ASIC에 분배하고, 보조 연산은 보다 유연한 장치(예: FPGA, GPU)에 분배하는 것이다. 서로 다른 장치의 단순한 통합은 높은 통신 오버헤드로 인해 높은 성능을 제공하지 못함을 강조한다. 이러한 통신 비효율을 해결하기 위해, 우리는 직접 장치 간 통신과 세분화된 연산 스케줄링을 활용하는 효율적인 FPGA 기반 장치 오케스트레이션을 제안한다. 이를 통해 본 시스템은 값비싼 커널 스택 순회(expensive kernel stack traversal)를 제거하고 계산 연산 유닛과 통신 링크를 병렬로 활용함으로써 이질적 장치 간의 통신 오버헤드를 완화한다. 새롭게 부상하는 보조 연산을 포함하는 인기 신경망을 사용한 평가는, 본 시스템이 단일 가속기 학습부터 분산 학습(2.6–8.9× 속도 향상)에 이르기까지 다양한 경우에서 유연성과 높은 성능을 모두 달성함을 보여준다.
https://doi.org/10.1109/tpds.2022.3144453
Computer science
Artificial neural network
Distributed computing
Scheduling (production processes)
Leverage (statistics)
Orchestration
Field-programmable gate array
Embedded system
Artificial intelligence
5
Article
|
·
인용수 7
·
2022STfusion: Fast and Flexible Multi-NN Execution Using Spatio-Temporal Block Fusion and Memory Management
Eunjin Baek, Eunbok Lee, Taehun Kang, Jangwoo Kim
IF 3.7 (2022)
IEEE Transactions on Computers
신경망(NN) 가속기의 비용 효율성을 극대화하기 위해, 아키텍트들은 다수의 NN을 동시에 실행할 수 있는 단일 칩 가속기를 적극적으로 개발하고 있다. 그러나 기존 접근법은 공간 또는 시간 자원 공유(SS 또는 TS)만을 활용함으로써 성능 잠재력을 충분히 달성하지 못한다. 또한 성능에 중대한 영향을 미칠 수 있는 메모리 관리에 대해서도 고려하지 않는다. 이러한 한계는 신중한 메모리 관리를 통해 두 가지 기회를 모두 활용하는 새로운 다중-NN 가속기의 절실한 필요로 이어진다. 다만, 이상적인 공간-시간 공유 가속기를 설계하는 일은 극도로 어렵다. 그 이유는 (1) 대규모 탐색 공간에서 SS/TS의 정도를 결정하는 알고리즘, (2) 다양한 설계 지점을 갖도록 고안된 새로운 STS 지원(accelerator), (3) 재구성 시 수많은 데이터 전송 과정에서 자원 경합을 최소화하는 세심하게 설계된 메모리 관리가 필요하기 때문이다. 이를 위해 본 연구에서는 빠르고 유연한 다중-NN 실행 아키텍처인 STfusion을 제안한다. 첫째, STfusion은 가속기를 여러 개의 더 작은 TS 지원 가속기로 분할한다. 둘째, STfusion은 가속기 크기를 조정하기 위해 소형 가속기들을 동적으로 결합한다. 셋째, STfusion은 지연 없는 데이터 전송을 위해 온칩 버퍼를 페이지 단위(granularity)로 관리한다. 마지막으로 STfusion은 QoS 목표를 만족하면서 높은 처리량을 달성하기 위한 SS/TS의 정도를 결정하는 알고리즘을 제공한다. 평가 결과, STfusion은 최신의 다중-NN 가속기에 비해 유의미하게 더 높은 성능을 보인다.
https://doi.org/10.1109/tc.2022.3218428
Computer science
Granularity
Block (permutation group theory)
Control reconfiguration
Computer architecture
Distributed computing
Computer engineering
Parallel computing
Embedded system
Operating system