주요 논문
5
*2026년 기준 최근 6년 이내 논문에 한해 Impact Factor가 표기됩니다.
1
Article
|
인용수 3
·
2025Per-Row Activation Counting on Real Hardware: Demystifying Performance Overheads
J. H. Kim, Seungmin Baek, Minbok Wi, Hwayong Nam, Michael Jaemin Kim, Sukhan Lee, Kyomin Sohn, Jung Ho Ahn
IF 1.4 (2025)
IEEE Computer Architecture Letters
행 단위 활성 카운팅(Per-Row Activation Counting, PRAC)은 DRAM 읽기 교란(disturbance)을 완화하는 방법으로, 핵심 DRAM 타이밍 파라미터를 수정하며 시뮬레이터 기반 연구에서 상당한 성능 오버헤드를 유발하는 것으로 보고되어 있다. 그러나 시뮬레이터와 실제 하드웨어 사이에 알려진 불일치가 존재하므로, PRAC의 성능을 정확히 추정하기 위해서는 실기(real-machine) 실험이 필수적이다. 본 연구는 PRAC에 대한 최초의 실기 기반 성능 분석을 제시한다. 마이크로벤치마크를 사용하여 최신 CPU에서 타이밍 수정 사항을 검증한 결과, SPEC CPU2017 워크로드에 대해 PRAC의 평균 및 최대 오버헤드는 각각 1.06%와 3.28%에 불과한 것으로 나타났으며, 이는 시뮬레이터 기반 보고치보다 최대 9.15배 낮은 수준이다. 더 나아가, 근접 페이지(close page) 정책이 임계 경로(critical path)에서 PRAC에 의해 야기되는 DRAM 행 프리차지(row precharge) 연장 연산을 효과적으로 은폐함으로써 이 오버헤드를 최소화함을 보여준다.
https://doi.org/10.1109/lca.2025.3587293
Computer science
Embedded system
Parallel computing
Computer architecture
Computer hardware
Operating system
2
Article
|
인용수 4
·
2025Cosmos: A CXL-Based Full In-Memory System for Approximate Nearest Neighbor Search
Seoyoung Ko, Hyunjeong Shim, Wanju Doh, Sungmin Yun, Jinin So, Yongsuk Kwon, Sangsoo Park, Si-Dong Roh, Minyong Yoon, Taeksang Song, Jung Ho Ahn
IF 1.4 (2025)
IEEE Computer Architecture Letters
검색-강화 생성(Retrieval-Augmented Generation, RAG)은 외부 소스에서 추출한 적절한 문맥을 주입함으로써 대규모 언어 모델의 품질을 향상시키는 데 중요하다. RAG는 수십억 스케일의 벡터 데이터베이스에 대해 고처리량, 저지연의 근사 최근접 이웃 검색(Approximate Nearest Neighbor Search, ANNS)을 요구한다. 기존의 DRAM/SSD 기반 솔루션은 용량/지연 한계에 직면하는 반면, 특화 하드웨어나 RDMA 클러스터는 유연성이 부족하거나 네트워크 오버헤드를 유발한다. 우리는 COSMOS를 제안하는데, 이는 CXL 메모리 장치 내에 범용 코어를 통합하여 전체 ANNS 오프로딩을 가능하게 하고, 메모리 대역폭을 최대화하기 위해 순위 수준(rank-level) 병렬 거리 계산을 도입한다. 또한 클러스터 간 근접성을 기반으로 CXL 장치 전반에 걸쳐 검색 부하를 균형 있게 분산하는 인접성 인지(adjacency-aware) 데이터 배치를 제안한다. SIFT1B 및 DEEP1B 트레이스에 대한 평가는 COSMOS가 기준 CXL 시스템 대비 최대 6.72배 높은 처리량을, 그리고 최신 수준의 CXL 기반 솔루션 대비 2.35배 높은 처리량을 달성함을 보여주어 RAG 파이프라인의 확장성을 입증한다.
https://doi.org/10.1109/lca.2025.3570235
Computer science
k-nearest neighbors algorithm
Parallel computing
Artificial intelligence
3
Article
|
·
인용수 1
·
2025Unlocking Private Computation at Scale: The Acceleration of Homomorphic Encryption
Jaiyoung Park, Sangpyo Kim, Jongmin Kim, Jung Ho Ahn
IF 2.3 (2025)
Computer
동형암호화(HE)는 암호화된 데이터를 처리할 수 있는 “완벽한 계산상의 하인”을 약속하지만, 그에 따른 오버헤드가 실용적 활용을 저해해 왔다. 현재 HE 가속과 관련된 핵심적인 돌파구들이 이 강력한 개인정보 보호 패러다임을 이론에서 현실로 가져오고 있다.
https://doi.org/10.1109/mc.2025.3613184
Homomorphic encryption
Encryption
Acceleration
Key (lock)
Computation
Process (computing)
4
Article
|
·
인용수 0
·
2024Hechi: A Hybrid Approach for Efficient Memory Reclamation Techniques in Mobile Systems
Wanju Doh, Seoyoung Ko, Michael Jaemin Kim, Jung Ho Ahn
IF 2 (2024)
IEEE Embedded Systems Letters
애플리케이션 시작 시간(application startup time)은 시작 후 애플리케이션이 사용자에게 보이기까지 걸리는 시간으로, 모바일 시스템에서 사용자 경험에 중대한 영향을 미치는 핵심 요인이다. 백그라운드에서 전환되는 애플리케이션의 시작 시간(전환 시간)은 저장소에서 읽어오는 페이지 수에 크게 좌우된다. 애플리케이션이 처음 실행되거나(최초 시작) 종료(killed)된 후 다시 로드(reload)될 때에는, 처음부터 다시 시작하므로 더 긴 시작 시간(콜드 런치 시간, cold-launch time)을 겪는다. 이를 완화하기 위해 본 메모리에 필수 데이터를 유지하면서 애플리케이션의 종료 횟수를 최소화하는 방법이 도움이 될 수 있으나, 이는 다음과 같은 상충관계가 따른다. 즉, 더 많은 파일 기반 페이지(file pages)를 회수하면, 이를 저장소에서 가져오는 오버헤드로 인해 전환이 느려지는 반면, 파일과 연관되지 않은 익명 페이지(anon pages)를 더 많이 회수하면 제한된 스왑 공간(swap space)으로 인해 앱이 종료될 위험이 있다. Hechi는 이러한 상충관계를 해결하기 위해 하이브리드 메모리 회수(hybrid memory reclamation) 접근 방식을 사용한다. 필수 파일 페이지의 회수를 우선순위에서 낮추고, 시스템 상태에 따라 두 유형의 페이지에 대한 회수 비율을 동적으로 조정함으로써, Hechi는 시작 시간을 최대 17%까지 개선한다.
https://doi.org/10.1109/les.2024.3494854
Computer science
Embedded system
Computer architecture
Distributed computing
5
Article
|
인용수 27
·
2023HyPHEN: A Hybrid Packing Method and Its Optimizations for Homomorphic Encryption-Based Neural Networks
Donghwan Kim, Jaiyoung Park, Jongmin Kim, Sangpyo Kim, Jung Ho Ahn
IF 3.4 (2023)
IEEE Access
완전동형암호화(FHE)를 사용한 합성곱 신경망(CNN) 추론은 민감한 사용자 데이터의 프라이버시를 보호하면서 서버로 전체 연산 과정을 오프로드할 수 있게 해주는 FHE의 능력 덕분에 유망한 프라이빗 추론(PI) 솔루션이다. FHE 기반의 선행 CNN(HCNN) 연구에서는 FHE를 사용하여 ResNet과 같은 딥 신경망 아키텍처를 구축하는 것이 가능함을 보여주었다. 그러나 이러한 발전에도 불구하고, HCNN은 높은 계산 및 메모리 오버헤드로 인해 실용성 측면에서 여전히 중대한 과제에 직면해 있다. 이러한 제한을 극복하기 위해 본 연구에서는 새로운 합성곱 알고리즘(RAConv 및 CAConv), 데이터 패킹 방법(2D gap packing 및 PRCR scheme), 그리고 HCNN 구축에 특화된 최적화 기법을 통합한 딥 HCNN 구축인 HyPHEN을 제시한다. 이러한 개선을 통해 HyPHEN은 메모리 사용량의 크기와, 암호문 회전 및 부트스트래핑과 같은 값비싼 동형암호 연산의 횟수를 상당히 줄일 수 있다. 그 결과, HyPHEN은 HCNN CIFAR-10 추론의 지연 시간을 실용적인 수준인 1.4초(ResNet-20)로 낮추었으며, HCNN ImageNet 추론을 처음으로 14.7초(ResNet-18)에 도달하는 성능으로 시연하였다.
https://doi.org/10.1109/access.2023.3348170
Computer science
Homomorphic encryption
Inference
Convolutional neural network
Dram
Computer engineering
Overhead (engineering)
Ciphertext
Parallel computing
Encryption