생성적 추론을 위한 대형 언어 모델의 계산 및 메모리 요구는 실제 배치에 있어 중대한 도전 과제를 제기한다. 오프라인 추론을 목표로 하는 유망한 해결책 중 하나는 오프로딩 기반 배치 추론으로, GPU의 메모리 계층에 호스트 메모리와 저장소를 확장한다. 그러나 이러한 방법은 배치 크기와 컨텍스트 윈도 길이에 따라 증가하는 대규모 KV 캐시 크기 때문에, 주로 상당한 I/O 오버헤드를 겪는 경우가 많다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.