Near-Storage LLM Offloaded Training and Inference
연구 내용
저장대역 병목을 줄이기 위해 near-storage 가속기에서 파라미터 업데이트와 attention·KV 캐시 연산을 수행하는 LLM 오프로딩 연구
대규모 언어 모델의 학습·추론은 GPU 메모리 용량과 I/O 대역폭 제약에 의해 성능이 제한됩니다. 연구실은 storage-offloaded 방식에서 발생하는 저장 트래픽 병목을 near-storage processing으로 완화하는 접근을 수행합니다. SmartUpdate로 파라미터 업데이트를 저장 측에서 처리하고, 제한된 메모리 사용 하에서 전송을 겹치도록 버퍼 재사용 기반 핸들러 구조를 설계합니다. 또한 긴 문맥 추론에서는 attention near storage를 중심으로 KV 캐시 쓰기 지연과 write amplification 완화를 포함한 최적화를 구성하고, 자원 제약 내 처리량을 유지하는 메모리 효율 가속기 구조를 도입합니다.
관련 연구 성과
관련 논문
2편
관련 특허
0건
관련 프로젝트
3건
연구 흐름
초기 연구는 저장대역 병목을 저장 쪽 연산으로 전환하는 방향에서 진행되었습니다. 2024년에는 storage-offloaded 학습에서 파라미터 업데이트를 near-storage 가속기로 옮기고, 데이터 전송과 버퍼 운용을 통합하여 시스템 통합 이슈를 줄이는 Smart-Infinity를 제안했습니다. 이후 2025년에는 offline long-context 추론으로 확장하여 attention과 KV 캐시 I/O를 near-storage에서 처리하는 HILOS를 구축했습니다. 긴 문맥에서 KV 캐시 쓰기 지연과 캐시 I/O 감소 구조를 포함해 추론 처리량을 안정화하는 연구 궤적을 형성했습니다.
활용 가능성
활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.
관련 논문
구분
제목
Smart-Infinity: Fast Large Language Model Training using Near-Storage Processing on a Real System
A Cost-Effective Near-Storage Processing Solution for Offline Inference of Long-Context LLMs
관련 프로젝트
구분
제목
초거대 AI 모델 추론을 위한 3D NAND 기반 PIM 기술 연구
초거대 AI 모델 추론을 위한 3D NAND 기반 PIM 기술 연구
초거대 AI 모델 추론을 위한 3D NAND 기반 PIM 기술 연구