주요 논문
5
*2026년 기준 최근 6년 이내 논문에 한해 Impact Factor가 표기됩니다.
1
Article
|
인용수 1
·
2025G^3SA: A GPU-Accelerated Gold Standard Genomics Library for End-to-End Sequence Alignment
Yeejoo Han, Sunwoo Kim, Seongyeon Park, Jinho Lee
https://doi.org/10.1145/3721145.3729516
End-to-end principle
Computer science
Sequence (biology)
Gold standard (test)
Genomics
Artificial intelligence
Genome
Genetics
Biology
2
Article
|
·
인용수 0
·
2025DANCE++: Differentiable Accelerator/Network Co-Exploration With Hard Constraints and Data-Free Training for Real-World Scenarios
Kanghyun Choi, Deokki Hong, Hyeyoon Lee, Joonsang Yu, Noseong Park, Youngsok Kim, Jinho Lee
IF 2.9 (2025)
IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems
신경 아키텍처와 하드웨어 가속기의 공동 탐색(co-exploration)은, 특히 저전력·저형상(low-profile) 시스템에서의 계산 비용 문제를 해결하기 위한 유망한 접근으로 부상하고 있다. 그러나 강화학습이나 진화적 탐색에 기반한 기존의 공동 탐색 방법은 상당한 탐색 비용을 수반한다. 이를 해결하기 위해 본 연구는 하드웨어 및 네트워크 아키텍처 설계를 위한 공동 탐색을 미분가능하게(differentiable) 수행하는 접근인 DANCE++를 제안한다. DANCE++의 핵심에는 하드웨어 지표를 신경망으로 모델링하는 미분가능 평가자 네트워크가 있으며, 이를 통해 역전파(backpropagation)를 이용하여 가속기 설계를 가능하게 한다. DANCE++는 기존의 전통적 접근에 비해 탐색 시간을 크게 감소시키는 동시에 정확도 및 하드웨어 비용 지표를 향상시킨다. 또한 실제 환경을 더 잘 반영하기 위해, 본 연구는 두 가지 중요한 실무 주제를 구현한다: 강한 제약(hard constraints)과 데이터 의존성(data dependency)이다. 프레임 레이트 또는 면적 예산(area budget)과 같은 제약을 충족하기 위해, 본 연구는 미분가능 최적화(differentiable optimization)를 안내하여 강한 제약을 만족하는 해를 찾는 그래디언트 조작(gradient manipulation) 알고리즘을 제안한다. 더불어 학습 데이터셋에 접근할 수 없는 경우를 고려하기 위해, 본 연구는 공동 탐색 단계와 학습 단계 모두에서 데이터-프리(data-free) 학습 방법을 사용함을 제안한다. 우리가 아는 한, DANCE++는 이러한 실세계의 도전 과제를 대상으로 하는 최초의 공동 탐색 방법이며, 광범위한 실험을 통해 그 효과를 입증한다.
https://doi.org/10.1109/tcad.2025.3582196
Dance
Differentiable function
Training (meteorology)
Computer science
Artificial intelligence
Mathematics
Visual arts
Meteorology
Art
Geography
3
Article
|
·
인용수 4
·
2025Piccolo: Large-Scale Graph Processing with Fine-Grained in-Memory Scatter-Gather
Changmin Shin, Jaeyong Song, Hongsun Jang, Dogeun Kim, Jun Ho Sung, Taehee Kwon, Jae Hyung Ju, Frank Liu, Yeonkyu Choi, Jinho Lee
그래프 처리는 불규칙하고 세밀한 수준의 랜덤 접근 패턴을 요구하는데, 이는 현행 오프칩 메모리 아키텍처와 양립하기 어렵기 때문에 비효율적인 데이터 접근이 발생한다. 이러한 비효율성 때문에 그래프 처리는 극도로 메모리 대역폭에 제약받는 응용이 된다. 그 결과, 기존 그래프 처리 가속기들은 대개 메모리 병목을 완화하기 위해 그래프 타일링 기반 또는 처리-메모리(in-memory, PIM) 접근 방식을 사용한다. 타일링 기반 접근에서는 그래프를 온칩 캐시에 들어갈 수 있는 크기의 청크로 분할하여 데이터 재사용을 극대화한다. PIM 접근에서는 감산 또는 원자적 덧셈과 같은 연산을 수행하기 위해 메모리 내에 산술 연산 유닛을 배치한다. 그러나 두 접근 방식 모두 현재의 메모리 표준(즉, DDR)에서 구현할 때 여러 한계가 있다. DDR이 제공하는 접근 단위(입자성)는 그래프 정점 속성 데이터의 그것보다 훨씬 크기 때문에, 대역폭과 캐시 용량의 상당 부분이 낭비된다. PIM은 이러한 문제를 완화하기 위한 것이지만, 타일링 기반 접근과 함께 사용하기가 어렵기 때문에 큰 불리함으로 이어진다. 또한 메모리 칩 내부에 산술 연산 유닛을 배치하는 일은 비용이 많이 들기 때문에, 다양한 유형의 연산을 지원하는 것은 비현실적일 것으로 여겨진다. 위의 한계를 해결하기 위해, 우리는 미세한 수준의 in-memory 랜덤 scatter-gather를 갖춘 종단 간(end-to-end) 효율적인 그래프 처리 가속기인 Piccolo를 제시한다. 오프칩 메모리에 값비싼 산술 연산 유닛을 배치하는 대신, Piccolo는 랜덤 scatter-gather의 비(非)산술 function-in-memory를 통해 오프칩 트래픽을 감소시키는 데 초점을 둔다. in-memory scatter-gather의 이점을 최대한 활용하기 위해, Piccolo는 가속기의 캐시 및 미스-핸들링 아키텍처(MHA)를 재설계하여 타일링의 장점과 메모리 내 연산의 장점을 모두 누릴 수 있도록 한다. Piccolo는 최대 3.28×의 속도 향상과 1.62×의 기하 평균 속도 향상을 달성했으며, 다양한 광범위한 벤치마크에서 에너지 소비를 최대 59.7%까지 감소시킨다.
https://doi.org/10.1109/hpca61900.2025.00055
Computer science
Graph
Scale (ratio)
Parallel computing
Theoretical computer science
Physics
4
Preprint
|
인용수 1
·
2025A Cost-Effective Near-Storage Processing Solution for Offline Inference of Long-Context LLMs
Hongsun Jang, Jaeyong Song, Changmin Shin, Noh, Si Ung, Jaewon Jung, Park, Jisung, Jinho Lee
ArXiv.org
생성적 추론을 위한 대규모 언어 모델의 계산 및 메모리 요구사항은 실제 배치에 중대한 과제를 제기한다. 오프라인 추론을 목표로 하는 유망한 해결책으로는 오프로딩 기반 배치 추론(offloading-based batched inference)이 있으며, 이는 호스트 메모리와 저장장치를 통해 GPU의 메모리 계층 구조를 확장한다. 그러나 이러한 방식은 종종 배치 크기와 컨텍스트 윈도우 길이에 따라 증가하는 대규모 KV 캐시 크기 때문에, 주로 I/O 오버헤드가 상당한 수준으로 발생하는 문제가 있다. 본 논문에서는 near-storage 처리를 이용하여 오프라인 추론 처리량을 향상시키는 프레임워크 HILOS를 제안한다. HILOS의 핵심은 attention near storage로, 메모리 집약적인 주의(attention) 연산을 near-storage 가속기로 오프로딩하여 시스템 상호연결(interconnect)을 통한 트래픽을 감소시킨다. attention near storage를 기반으로 HILOS는 세 가지 추가 최적화를 포함한다. 첫째, cooperative X-cache는 오프로딩 이후 이용 가능한 호스트 자원을 활용하여 KV 캐시 I/O를 최소화한다. 둘째, delayed KV cache writeback은 저장장치 쓰기 지연을 숨기고 저장장치 쓰기 증폭(storage write amplification)을 완화한다. 마지막으로, 메모리 효율적인 attention 가속기는 NSP 장치의 자원 제약 내에서 긴 시퀀스에 대해 높은 처리량을 유지한다. 우리는 16개의 SmartSSDs가 장착된 실제 시스템에서 HILOS를 구현하고 평가하였다. 최신 오프로딩 기반 추론 프레임워크와 비교하여 HILOS는 최대 7.86배의 처리량을 달성하면서 에너지 소비를 최대 85\%까지 감소시킨다. HILOS의 소스 코드는 https://github.com/hongsunjang/HILOS에서 제공된다.
http://arxiv.org/abs/2502.09921
Inference
Throughput
Computer science
Generative grammar
Generative model
Artificial intelligence
Natural language processing
Operating system
5
Article
|
·
인용수 5
·
2024A Case for In-Memory Random Scatter-Gather for Fast Graph Processing
Changmin Shin, Taehee Kwon, Jaeyong Song, Jae Hyung Ju, Frank Liu, Yeonkyu Choi, Jinho Lee
IF 1.4 (2024)
IEEE Computer Architecture Letters
메모리 벽(memory wall) 문제는 널리 인지되어 왔으며, 그로 인해 최신 DRAM은 기본적인 읽기 및 쓰기 연산을 넘어서는 혁신적인 기능들이 점점 더 부여되고 있다. 흔히 ‘function-inmemory’로 불리는 이러한 기법들은 DRAM 내부에 풍부하게 존재하는 대역폭을 활용하도록 설계된다. 그러나 이러한 기법들은 산술 연산 장치를 위한 대규모 면적이 필요하고, 하나의 워드를 여러 조각으로 분할해야 한다는 필요성 등 여러 가지 과제에 직면해 있다. 이러한 과제들은 이들 function-in-memory 기법의 실용적 적용을 심각하게 제한한다. 본 논문에서는 무작위 scatter-gather 메모리의 효율적인 설계를 제시한다. 우리는 Piccolo 를 통해, 최소한의 오버헤드로도 상당한 성능 향상을 달성한다. 그래프 처리 가속기에서 본 기법을 시연함으로써, Piccolo 및 제안하는 가속기가 선행 기술 대비 의 속도 향상을 달성함을 보인다.
https://doi.org/10.1109/lca.2024.3376680
Computer science
Parallel computing
Graph
Random access memory
Theoretical computer science
Computer hardware