생성적 추론을 위한 대규모 언어 모델의 계산 및 메모리 요구사항은 실제 배치에 중대한 과제를 제기한다. 오프라인 추론을 목표로 하는 유망한 해결책으로는 오프로딩 기반 배치 추론(offloading-based batched inference)이 있으며, 이는 호스트 메모리와 저장장치를 통해 GPU의 메모리 계층 구조를 확장한다. 그러나 이러한 방식은 종종 배치 크기와 컨텍스트 윈도우 길이에 따라 증가하는 대규모 KV 캐시 크기 때문에, 주로 I/O 오버헤드가 상당한 수준으로 발생하는 문제가 있다. 본 논문에서는 near-storage 처리를 이용하여 오프라인 추론 처리량을 향상시키는 프레임워크 HILOS를 제안한다. HILOS의 핵심은 attention near storage로, 메모리 집약적인 주의(attention) 연산을 near-storage 가속기로 오프로딩하여 시스템 상호연결(interconnect)을 통한 트래픽을 감소시킨다. attention near storage를 기반으로 HILOS는 세 가지 추가 최적화를 포함한다. 첫째, cooperative X-cache는 오프로딩 이후 이용 가능한 호스트 자원을 활용하여 KV 캐시 I/O를 최소화한다. 둘째, delayed KV cache writeback은 저장장치 쓰기 지연을 숨기고 저장장치 쓰기 증폭(storage write amplification)을 완화한다. 마지막으로, 메모리 효율적인 attention 가속기는 NSP 장치의 자원 제약 내에서 긴 시퀀스에 대해 높은 처리량을 유지한다. 우리는 16개의 SmartSSDs가 장착된 실제 시스템에서 HILOS를 구현하고 평가하였다. 최신 오프로딩 기반 추론 프레임워크와 비교하여 HILOS는 최대 7.86배의 처리량을 달성하면서 에너지 소비를 최대 85\%까지 감소시킨다. HILOS의 소스 코드는 https://github.com/hongsunjang/HILOS에서 제공된다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.