A Cost-Effective Near-Storage Processing Solution for Offline Inference of Long-Context LLMs | 이진호 교수 연구실 | 서울대학교 전기·정보공학부

|이진호 교수 연구실

홈

연구 영역

기본 정보

논문·특허

과제

구성원

Article|

인용수 0

·2026

A Cost-Effective Near-Storage Processing Solution for Offline Inference of Long-Context LLMs

Hongsun Jang, Jaeyong Song, Changmin Shin, Si Ung Noh, Jaewon Jung, Jisung Park, Jinho Lee

초록

생성적 추론을 위한 대형 언어 모델의 계산 및 메모리 요구는 실제 배치에 있어 중대한 도전 과제를 제기한다. 오프라인 추론을 목표로 하는 유망한 해결책 중 하나는 오프로딩 기반 배치 추론으로, GPU의 메모리 계층에 호스트 메모리와 저장소를 확장한다. 그러나 이러한 방법은 배치 크기와 컨텍스트 윈도 길이에 따라 증가하는 대규모 KV 캐시 크기 때문에, 주로 상당한 I/O 오버헤드를 겪는 경우가 많다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

InferenceContext (archaeology)HierarchyGenerative grammarCacheGenerative modelWindow (computing)

타입

Article

IF / 인용수

- / 0

원문

https://doi.org/10.1145/3779212.3790119

게재 연도

2026