RnDCircle Logo
노원우 연구실
연세대학교 전기전자공학과
노원우 교수
기본 정보
연구 분야
프로젝트
발행물
구성원

노원우 연구실

연세대학교 전기전자공학과 노원우 교수

본 연구실은 프로세서 구조와 멀티코어 시스템을 중심으로 GPU·AI 가속기·PIM·메모리 계층 구조를 포함한 차세대 컴퓨팅 하드웨어를 연구하며, 영상 코덱 최적화와 데이터센터 AI 시스템 설계까지 확장하여 고성능·저전력·고효율 시스템반도체 및 컴퓨터 시스템 기술을 개발하고 있다.

대표 연구 분야
연구 영역 전체보기
프로세서 구조 및 이기종 멀티코어 시스템 thumbnail
프로세서 구조 및 이기종 멀티코어 시스템
주요 논문
3
논문 전체보기
1
article
|
인용수 0
·
2025
MaxiMoff: Designing Matrix Multiplication Accelerator for Effective Multiply-Add Operations Offloading
S. Kim, Dongho Ha, Seunghwan Sung, Won Woo Ro
IF 5.4
IEEE Transactions on Emerging Topics in Computing
Contemporary GPU architectures integrate specialized computing units for matrix multiplication, named matrix multiplication units (MXUs), to effectively process neural network applications. However, since MXUs are limited to matrix multiplications, GPUs show inefficiencies in computing resource utilization while applications are unrelated to matrix multiplications. Furthermore, despite prior work to leverage MXUs in general-purpose computing, they are constrained by static analysis, limiting their adaptability and hardware utilization efficiency. This study observes that the techniques emulating high-bitwidth multiplication with low-bitwidth ones transform a single high-bitwidth Multiply-and-ADd (MAD) operation into a low-bitwidth dot-product operation. Leveraging this observation, we propose <italic xmlns:mml="http://www.w3.org/1998/Math/MathML" xmlns:xlink="http://www.w3.org/1999/xlink">MaxiMoff</i>, a novel GPU architecture to utilize general-purpose cores and MXUs while computing MAD instructions dynamically. With this extended design, MaxiMoff achieves an average speedup of 1.39× and reduces total energy consumption by 17.3%.
https://doi.org/10.1109/tetc.2025.3626723
Matrix multiplication
Speedup
Leverage (statistics)
Energy consumption
Adaptability
Process (computing)
Multiplication (music)
Limiting
Hardware acceleration
2
article
|
인용수 0
·
2025
Perspective Shifts: Cultivating Teacher Diversity in Online Knowledge Distillation
M G Park, Woojeong Kim, Junsik Bang, Y.C. Park, Won Woo Ro, Suhyun Kim
IF 7.6
Knowledge-Based Systems
https://doi.org/10.1016/j.knosys.2025.113955
Perspective (graphical)
Diversity (politics)
Distillation
Psychology
Sociology
Computer science
Chemistry
Artificial intelligence
Chromatography
Anthropology
3
article
|
인용수 1
·
2025
q-Point: A Numeric Format for Quantum Circuit Simulation Using Polar Form Complex Numbers
Seungwoo Choi, Enhyeok Jang, Youngmin Kim, Sungwoo Ahn, Won Woo Ro
IF 5.4
IEEE Transactions on Emerging Topics in Computing
Quantum circuit simulation is playing a critical role in the current era of quantum computing. However, quantum circuit simulation suffers from huge memory requirements that scale exponentially according to the number of qubits. Our observation reveals that the conventional complex number representation using real and imaginary values adds to the memory overhead beyond the intrinsic cost of simulating quantum states. Instead, using the radius and phase value of a complex number better reflects the properties of the complex values used in the quantum circuit simulation providing better memory efficiency. This paper proposes q-Point, a compact numeric format for quantum circuit simulation that utilizes polar form representation instead of rectangular form representation to store complex numbers. The proposed q-Point format consists of three fields: [i)] exponent bits for radius value mantissa bits for radius value mantissa bits for phase value. However, a naive application of the q-Point format has the potential to cause issues with both simulation accuracy and simulation speed. To preserve simulation accuracy with fewer bits, we use a multi-level encoding scheme that employs different mantissa bits depending on the exponent range. Additionally, to prevent possible slowdown due to the add operation in polar form complex numbers, we use a technique that adaptively applies both polar and rectangular forms. Equipped with these optimizations, the proposed q-Point format demonstrates reasonable simulation accuracy while using only half of the memory requirement using the baseline format. Additionally, the q-Point format enables an average of 1.37× and 1.16× faster simulation for QAOA and VQE benchmark circuits.
https://doi.org/10.1109/tetc.2025.3572935
Computer science
Point (geometry)
Quantum computer
Polar
Theoretical computer science
Parallel computing
Quantum
Algorithm
Mathematics
Physics
정부 과제
32
과제 전체보기
1
2024년 4월-2027년 4월
|399,532,000
LLM 서버 시스템 내 고비용 GPU 최소화를 위한 혁신적 메모리 계층 구조 연구
[연구 과제의 최종 목표]- 소수의 GPU를 사용하고 부족한 메모리 용량은 호스트 메모리 및 CXL등의 프로토콜을 이용하여 연결- HBM-DIMM-CXL-SSD로 재편되는 메모리 계층 구조의 재정립- 각 메모리 계층 구조에 프로세싱 로직 (Processing-in-Memory 및 In-Storage Computing)을 추가하여 최적의 LLM구동 시스템 아...
거대 언어 모델
그래픽 처리 장치
메모리 내 연산기
고대역폭 메모리
컴퓨트 익스프레스 링크
2
2024년 3월-2027년 12월
|2,083,334,000
시뮬레이션 기반 고속/고정확도 데이터센터 워크로드/시스템 분석 플랫폼 개발
● 데이터 센터에서 대규모 AI 워크로드를 최적으로 실행하기 위한 NPU, PIM 등의 AI 반도체를 탑재하는 단일 서버 시스템 하드웨어 구성을 도출하기 위한 고속/고정밀 시뮬레이션/프로파일링 플랫폼 개발- 고속/고정밀 시뮬레이션/프로파일링 플랫폼을 통해 대규모 AI 워크로드에 따른 최적의 하드웨어 구성으로 유휴 하드웨어 자원을 최소화하여 구축 비용 및 에...
대규모 AI 워크로드 분석
서버 시스템 모델링
서버 시스템 프로파일링
AI 반도체 데이터센터
고속/고정밀 시뮬레이터
3
2024년 3월-2027년 12월
|1,566,667,000
시뮬레이션 기반 고속/고정확도 데이터센터 워크로드/시스템 분석 플랫폼 개발
● 데이터 센터에서 대규모 AI 워크로드를 최적으로 실행하기 위한 NPU, PIM 등의 AI 반도체를 탑재하는 단일 서버 시스템 하드웨어 구성을 도출하기 위한 고속/고정밀 시뮬레이션/프로파일링 플랫폼 개발- 고속/고정밀 시뮬레이션/프로파일링 플랫폼을 통해 대규모 AI 워크로드에 따른 최적의 하드웨어 구성으로 유휴 하드웨어 자원을 최소화하여 구축 비용 및 에...
대규모 AI 워크로드 분석
서버 시스템 모델링
서버 시스템 프로파일링
AI 반도체 데이터센터
고속/고정밀 시뮬레이터
최신 특허
특허 전체보기
상태출원연도과제명출원번호상세정보
공개2024양자 컴퓨팅 시스템의 동작 방법 및 양자 컴퓨팅 시스템1020240125804-
공개2024인공지능 추론을 위한 정밀도 변환이 가능한 신경 처리 유닛 및 이의 스케줄링 방법1020240103115
공개2024다중 PIM 컴퓨팅 장치 및 이의 동작 방법1020240092958
전체 특허

양자 컴퓨팅 시스템의 동작 방법 및 양자 컴퓨팅 시스템

상태
공개
출원연도
2024
출원번호
1020240125804

인공지능 추론을 위한 정밀도 변환이 가능한 신경 처리 유닛 및 이의 스케줄링 방법

상태
공개
출원연도
2024
출원번호
1020240103115

다중 PIM 컴퓨팅 장치 및 이의 동작 방법

상태
공개
출원연도
2024
출원번호
1020240092958