Efficient Memory Management Techniques for LLM Inference in Mobile System | 안정호 교수 연구실 | 서울대학교 지능정보융합학과

|안정호 교수 연구실

홈

연구 영역

기본 정보

논문·특허

과제

구성원

Article|

인용수 0

·2025

Efficient Memory Management Techniques for LLM Inference in Mobile System

Hyunjeong Shim, Sung-Jea Ko, Wanju Doh, Jung Ho Ahn

Journal of KIISE

초록

서버 기반 LLM의 개인 프라이버시 우려와 네트워크 지연 문제로 인해 온디바이스 LLM이 새롭게 주목받고 있으나, 모바일 운영체제의 메모리 관리 정책은 LLM 추론 시 메모리 자원을 효율적으로 관리하기에 한계가 존재한다. 본 논문에서 제안한 초기 KV 캐시 스왑과 웨이트 지연 회수 기법은 사전 할당된 KV 캐시를 zRAM을 활용해 메모리 사용량을 개선하고, 모델 웨이트의 회수를 지연시킴으로써 스토리지 I/O를 최소화하여 LLM의 추론 성능을 향상시킨다. 제안한 기법은 기존 리눅스 커널 대비 최대 27%의 메모리 사용량 절감 효과를 보이며, 메모리 경쟁이 심한 모바일 환경에서의 LLM 추론 성능 최적화를 이끌 수 있다. 또한, 추측 디코딩과 같은 여러 후보 경로를 유지하는 추론 기법에서 경로의 수에 비례하여 더 큰 메모리 절감 효과를 보임으로써, 모바일 환경에서 다양한 LLM 추론 기법의 적용 가능성을 보여준다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

Computer scienceInferenceArtificial intelligence

타입

Article

IF / 인용수

- / 0

원문

https://doi.org/10.5626/jok.2025.52.8.637

게재 연도

2025