연구 영역
기본 정보
논문·특허
과제
구성원
Article|
인용수 0
·2026
A Cost-Effective Near-Storage Processing Solution for Offline Inference of Long-Context LLMs
Hongsun Jang, Jaeyong Song, Changmin Shin, Si Ung Noh, Jaewon Jung, Jisung Park, Jinho Lee
초록

생성적 추론을 위한 대형 언어 모델의 계산 및 메모리 요구는 실제 배치에 있어 중대한 도전 과제를 제기한다. 오프라인 추론을 목표로 하는 유망한 해결책 중 하나는 오프로딩 기반 배치 추론으로, GPU의 메모리 계층에 호스트 메모리와 저장소를 확장한다. 그러나 이러한 방법은 배치 크기와 컨텍스트 윈도 길이에 따라 증가하는 대규모 KV 캐시 크기 때문에, 주로 상당한 I/O 오버헤드를 겪는 경우가 많다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드
InferenceContext (archaeology)HierarchyGenerative grammarCacheGenerative modelWindow (computing)
타입
Article
IF / 인용수
- / 0
게재 연도
2026