근접 저장장치 기반 LLM 오프로딩 학습·추론

Near-Storage LLM Offloaded Training and Inference

연구 내용

저장대역 병목을 줄이기 위해 near-storage 가속기에서 파라미터 업데이트와 attention·KV 캐시 연산을 수행하는 LLM 오프로딩 연구

대규모 언어 모델의 학습·추론은 GPU 메모리 용량과 I/O 대역폭 제약에 의해 성능이 제한됩니다. 연구실은 storage-offloaded 방식에서 발생하는 저장 트래픽 병목을 near-storage processing으로 완화하는 접근을 수행합니다. SmartUpdate로 파라미터 업데이트를 저장 측에서 처리하고, 제한된 메모리 사용 하에서 전송을 겹치도록 버퍼 재사용 기반 핸들러 구조를 설계합니다. 또한 긴 문맥 추론에서는 attention near storage를 중심으로 KV 캐시 쓰기 지연과 write amplification 완화를 포함한 최적화를 구성하고, 자원 제약 내 처리량을 유지하는 메모리 효율 가속기 구조를 도입합니다.

관련 프로젝트

3건

연구 흐름

초기 연구는 저장대역 병목을 저장 쪽 연산으로 전환하는 방향에서 진행되었습니다. 2024년에는 storage-offloaded 학습에서 파라미터 업데이트를 near-storage 가속기로 옮기고, 데이터 전송과 버퍼 운용을 통합하여 시스템 통합 이슈를 줄이는 Smart-Infinity를 제안했습니다. 이후 2025년에는 offline long-context 추론으로 확장하여 attention과 KV 캐시 I/O를 near-storage에서 처리하는 HILOS를 구축했습니다. 긴 문맥에서 KV 캐시 쓰기 지연과 캐시 I/O 감소 구조를 포함해 추론 처리량을 안정화하는 연구 궤적을 형성했습니다.

활용 가능성

활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.

장문 컨텍스트 LLM 배치 추론
저장 오프로딩 기반 학습 플랫폼
GPU 메모리 제약 완화
전력 효율 오프로딩 인프라
장문 모델 서빙 최적화
멀티 near-storage 확장
그래디언트 압축/복원 기반 학습 스케일링
KV 캐시 I/O 최적화
대역폭 병목 완화 스케줄링
PyTorch 통합 학습 프레임워크