연구 영역
기본 정보
논문·특허
과제
구성원
읽는 시간 · 1분 19초

근접 저장장치 기반 LLM 오프로딩 학습·추론

Near-Storage LLM Offloaded Training and Inference

연구 내용

저장대역 병목을 줄이기 위해 near-storage 가속기에서 파라미터 업데이트와 attention·KV 캐시 연산을 수행하는 LLM 오프로딩 연구

대규모 언어 모델의 학습·추론은 GPU 메모리 용량과 I/O 대역폭 제약에 의해 성능이 제한됩니다. 연구실은 storage-offloaded 방식에서 발생하는 저장 트래픽 병목을 near-storage processing으로 완화하는 접근을 수행합니다. SmartUpdate로 파라미터 업데이트를 저장 측에서 처리하고, 제한된 메모리 사용 하에서 전송을 겹치도록 버퍼 재사용 기반 핸들러 구조를 설계합니다. 또한 긴 문맥 추론에서는 attention near storage를 중심으로 KV 캐시 쓰기 지연과 write amplification 완화를 포함한 최적화를 구성하고, 자원 제약 내 처리량을 유지하는 메모리 효율 가속기 구조를 도입합니다.

관련 연구 성과

관련 논문

2

관련 특허

0

관련 프로젝트

3

연구 흐름

초기 연구는 저장대역 병목을 저장 쪽 연산으로 전환하는 방향에서 진행되었습니다. 2024년에는 storage-offloaded 학습에서 파라미터 업데이트를 near-storage 가속기로 옮기고, 데이터 전송과 버퍼 운용을 통합하여 시스템 통합 이슈를 줄이는 Smart-Infinity를 제안했습니다. 이후 2025년에는 offline long-context 추론으로 확장하여 attention과 KV 캐시 I/O를 near-storage에서 처리하는 HILOS를 구축했습니다. 긴 문맥에서 KV 캐시 쓰기 지연과 캐시 I/O 감소 구조를 포함해 추론 처리량을 안정화하는 연구 궤적을 형성했습니다.

활용 가능성

활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.

  • 장문 컨텍스트 LLM 배치 추론
  • 저장 오프로딩 기반 학습 플랫폼
  • GPU 메모리 제약 완화
  • 전력 효율 오프로딩 인프라
  • 장문 모델 서빙 최적화
  • 멀티 near-storage 확장
  • 그래디언트 압축/복원 기반 학습 스케일링
  • KV 캐시 I/O 최적화
  • 대역폭 병목 완화 스케줄링
  • PyTorch 통합 학습 프레임워크

관련 논문

구분

제목

1

Smart-Infinity: Fast Large Language Model Training using Near-Storage Processing on a Real System

2

A Cost-Effective Near-Storage Processing Solution for Offline Inference of Long-Context LLMs

관련 프로젝트

구분

제목

1

초거대 AI 모델 추론을 위한 3D NAND 기반 PIM 기술 연구

2

초거대 AI 모델 추론을 위한 3D NAND 기반 PIM 기술 연구

3

초거대 AI 모델 추론을 위한 3D NAND 기반 PIM 기술 연구