RnDCircle Logo
이진호 연구실
서울대학교 전기·정보공학부 이진호 교수
Near-storage processing
Processing-in-memory
LLM offloading
연구 영역
기본 정보
논문·특허
과제
구성원

이진호 연구실

서울대학교 전기·정보공학부 이진호 교수

이진호 연구실은 전기·정보공학부에서 GPU와 메모리 근접 구조를 활용한 대규모 연산 가속을 수행합니다. storage-offloaded 학습과 offline long-context 추론에서 발생하는 I/O 병목을 near-storage processing으로 완화하기 위해 attention near storage, KV cache I/O 최적화, 전송/버퍼 운용 구조를 설계합니다. 또한 PIM-enabled DIMM과 in-memory scatter-gather를 통해 비정형 그래프 처리의 트래픽과 접근 비효율을 줄이는 하드웨어 구조를 연구합니다. 더불어 GPU 친화적 알고리즘 재구성과 멀티-GPU 스케일링, differentiable accelerator/network co-exploration을 함께 다루며 다양한 응용 워크로드로 확장합니다.

Near-storage processingProcessing-in-memoryLLM offloadingGraph processing acceleratorGPU acceleration
대표 연구 분야
연구 영역 전체보기
근접 저장장치 기반 LLM 오프로딩 학습·추론 thumbnail
근접 저장장치 기반 LLM 오프로딩 학습·추론
Near-Storage LLM Offloaded Training and Inference
연구 분야 상세보기
연구 성과 추이
표시된 성과는 수집된 데이터 기준으로 산출되며, 일부 차이가 있을 수 있습니다.

5개년 연도별 논문 게재 수

56총합

5개년 연도별 피인용 수

522총합
주요 논문
5
논문 전체보기
1
Article
|
인용수 1
·
2025
G^3SA: A GPU-Accelerated Gold Standard Genomics Library for End-to-End Sequence Alignment
Yeejoo Han, Sunwoo Kim, Seongyeon Park, Jinho Lee
https://doi.org/10.1145/3721145.3729516
End-to-end principle
Computer science
Sequence (biology)
Gold standard (test)
Genomics
Artificial intelligence
Genome
Genetics
Biology
2
Article
|
·
인용수 0
·
2025
DANCE++: Differentiable Accelerator/Network Co-Exploration With Hard Constraints and Data-Free Training for Real-World Scenarios
Kanghyun Choi, Deokki Hong, Hyeyoon Lee, Joonsang Yu, Noseong Park, Youngsok Kim, Jinho Lee
IF 2.9 (2025)
IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems
신경 아키텍처와 하드웨어 가속기의 공동 탐색(co-exploration)은, 특히 저전력·저형상(low-profile) 시스템에서의 계산 비용 문제를 해결하기 위한 유망한 접근으로 부상하고 있다. 그러나 강화학습이나 진화적 탐색에 기반한 기존의 공동 탐색 방법은 상당한 탐색 비용을 수반한다. 이를 해결하기 위해 본 연구는 하드웨어 및 네트워크 아키텍처 설계를 위한 공동 탐색을 미분가능하게(differentiable) 수행하는 접근인 DANCE++를 제안한다. DANCE++의 핵심에는 하드웨어 지표를 신경망으로 모델링하는 미분가능 평가자 네트워크가 있으며, 이를 통해 역전파(backpropagation)를 이용하여 가속기 설계를 가능하게 한다. DANCE++는 기존의 전통적 접근에 비해 탐색 시간을 크게 감소시키는 동시에 정확도 및 하드웨어 비용 지표를 향상시킨다. 또한 실제 환경을 더 잘 반영하기 위해, 본 연구는 두 가지 중요한 실무 주제를 구현한다: 강한 제약(hard constraints)과 데이터 의존성(data dependency)이다. 프레임 레이트 또는 면적 예산(area budget)과 같은 제약을 충족하기 위해, 본 연구는 미분가능 최적화(differentiable optimization)를 안내하여 강한 제약을 만족하는 해를 찾는 그래디언트 조작(gradient manipulation) 알고리즘을 제안한다. 더불어 학습 데이터셋에 접근할 수 없는 경우를 고려하기 위해, 본 연구는 공동 탐색 단계와 학습 단계 모두에서 데이터-프리(data-free) 학습 방법을 사용함을 제안한다. 우리가 아는 한, DANCE++는 이러한 실세계의 도전 과제를 대상으로 하는 최초의 공동 탐색 방법이며, 광범위한 실험을 통해 그 효과를 입증한다.
https://doi.org/10.1109/tcad.2025.3582196
Dance
Differentiable function
Training (meteorology)
Computer science
Artificial intelligence
Mathematics
Visual arts
Meteorology
Art
Geography
3
Article
|
·
인용수 4
·
2025
Piccolo: Large-Scale Graph Processing with Fine-Grained in-Memory Scatter-Gather
Changmin Shin, Jaeyong Song, Hongsun Jang, Dogeun Kim, Jun Ho Sung, Taehee Kwon, Jae Hyung Ju, Frank Liu, Yeonkyu Choi, Jinho Lee
그래프 처리는 불규칙하고 세밀한 수준의 랜덤 접근 패턴을 요구하는데, 이는 현행 오프칩 메모리 아키텍처와 양립하기 어렵기 때문에 비효율적인 데이터 접근이 발생한다. 이러한 비효율성 때문에 그래프 처리는 극도로 메모리 대역폭에 제약받는 응용이 된다. 그 결과, 기존 그래프 처리 가속기들은 대개 메모리 병목을 완화하기 위해 그래프 타일링 기반 또는 처리-메모리(in-memory, PIM) 접근 방식을 사용한다. 타일링 기반 접근에서는 그래프를 온칩 캐시에 들어갈 수 있는 크기의 청크로 분할하여 데이터 재사용을 극대화한다. PIM 접근에서는 감산 또는 원자적 덧셈과 같은 연산을 수행하기 위해 메모리 내에 산술 연산 유닛을 배치한다. 그러나 두 접근 방식 모두 현재의 메모리 표준(즉, DDR)에서 구현할 때 여러 한계가 있다. DDR이 제공하는 접근 단위(입자성)는 그래프 정점 속성 데이터의 그것보다 훨씬 크기 때문에, 대역폭과 캐시 용량의 상당 부분이 낭비된다. PIM은 이러한 문제를 완화하기 위한 것이지만, 타일링 기반 접근과 함께 사용하기가 어렵기 때문에 큰 불리함으로 이어진다. 또한 메모리 칩 내부에 산술 연산 유닛을 배치하는 일은 비용이 많이 들기 때문에, 다양한 유형의 연산을 지원하는 것은 비현실적일 것으로 여겨진다. 위의 한계를 해결하기 위해, 우리는 미세한 수준의 in-memory 랜덤 scatter-gather를 갖춘 종단 간(end-to-end) 효율적인 그래프 처리 가속기인 Piccolo를 제시한다. 오프칩 메모리에 값비싼 산술 연산 유닛을 배치하는 대신, Piccolo는 랜덤 scatter-gather의 비(非)산술 function-in-memory를 통해 오프칩 트래픽을 감소시키는 데 초점을 둔다. in-memory scatter-gather의 이점을 최대한 활용하기 위해, Piccolo는 가속기의 캐시 및 미스-핸들링 아키텍처(MHA)를 재설계하여 타일링의 장점과 메모리 내 연산의 장점을 모두 누릴 수 있도록 한다. Piccolo는 최대 3.28×의 속도 향상과 1.62×의 기하 평균 속도 향상을 달성했으며, 다양한 광범위한 벤치마크에서 에너지 소비를 최대 59.7%까지 감소시킨다.
https://doi.org/10.1109/hpca61900.2025.00055
Computer science
Graph
Scale (ratio)
Parallel computing
Theoretical computer science
Physics
최신 정부 과제
28
과제 전체보기
1
2025년 2월-2026년 2월
|257,250,000
이기종 인공지능 반도체 시스템을 위한 고대역폭 GPU-FPGA 컴퓨팅 랙 구축
본 과제에서 구축하고자 하는 장비는 고대역폭 GPU-FPGA 컴퓨팅 랙이다. 본 장비는 네트워크 스위치, 마스터 서버, 스마트 스토리지 및 연산 노드로 이루어져 있으며, 각 연산 노드는 FPGA와GPU를 모두 장착하고 있다.● 연산 노드: 고성능 CPU와 대용량 메모리를 장착하고 있으며, 가속기로서 GPU와 FPGA를 포함한다.● FPGA: Configur...
그래픽스처리장치
필드 프로그래머블 게이트 어레이
컴퓨팅 클러스터
네트워크
인공지능반도체
2
2024년 7월-2027년 4월
|375,000,000
별탄생 이론의 새 패러다임: 간헐적 강착
본 기초연구실은 원시성이 질량을 획득하여, 별로서 탄생하는 과정을 이해하는 것을 목표로 한다. 이를 위해, 별탄생 기작의 새로운 패러다임으로 부상하고 있는 간헐적 강착(episodic accretion)으로 예측되는 젊은 항성체(YSO: Young stellar Object)의 물리적, 화학적 특성을 관측으로 확인하고, 그 결과를 관측자료에 대한 모델링 뿐...
별탄생
3
2024년 3월-2027년 12월
|4,675,000,000
차세대 AI 반도체를 위한 DPU 중심의 데이터센터 아키텍처
■ 대규모 AI 워크로드 성능 및 병목 프로파일링 기술 (SW)- LLM, MLPerf 등 데이터센터향 워크로드 기반의 평가- AI 반도체 (NPU?PIM) 및 IPU/DPU를 포함한 성능 평가■ AI 반도체 및 IPU/DPU 간 유연한 협력을 지원하기 위한 시스템 소프트웨어 및 컴파일러 개발 (SW)- 여러 종류의 장치를 제어하기 위한 시스템 SW 개발-...
데이터처리장치
인프라처리장치
신경망처리장치
프로세싱인메모리
오프로딩
최신 특허
특허 전체보기
상태출원연도과제명출원번호상세정보
등록2021인공신경망과 연산 가속기 구조 통합 탐색 장치 및 방법1020210121891
전체 특허

인공신경망과 연산 가속기 구조 통합 탐색 장치 및 방법

상태
등록
출원연도
2021
출원번호
1020210121891