ReplayOpt: Optimizer-State Replay to Resolve Critical-Path Bottlenecks in Offloaded Training | 김대훈 교수 연구실 | 연세대학교 시스템반도체공학과

|김대훈 교수 연구실

홈

연구 영역

기본 정보

논문·특허

과제

구성원

Article|

인용수 0

·2026

ReplayOpt: Optimizer-State Replay to Resolve Critical-Path Bottlenecks in Offloaded Training

S.H. Bang, Gyeongseo Park, Kyeonghyeon Ryu, Daehoon Kim

IF 1.4 (2026) IEEE Computer Architecture Letters

초록

CPU 오프로딩(offloaded) 학습은, 저정밀 가중치를 GPU에 유지하는 한편 고정밀 옵티마이저 상태를 호스트 메모리에 저장함으로써, 비교적 소규모 GPU 클러스터에서 수십억 스케일 모델의 학습을 가능하게 한다. 우리는 CPU 오프로딩 학습이 종종 PCIe 전송에 의해 병목이 생기는 것이 아니라, 고정밀 옵티마이저 상태를 호스트 메모리에 저장하는 과정이 다음 반복을 지연시켜 GPU를 정지시키기 때문에 병목이 발생한다는 점을 발견하였다. 우리의 측정에 따르면, 이러한 비중첩(non overlapped) 저장은 CPU 측 옵티마이저 시간의 최대 28%를 차지하며 다음 반복의 시작을 지연시켜 GPU가 유휴 상태에 머무르게 한다. 본 연구에서는 호스트 메모리 상태 저장을 임계 경로(critical path)에서 제거하기 위해 CPU–GPU 업데이트 스케줄을 재정렬하는 옵티마이저 설계인 ReplayOpt를 제안한다. ReplayOpt는 다음 반복의 저정밀 가중치를 먼저 생성하고 전송한 뒤, 배경에서 고정밀 상태 업데이트를 재생(replay)하여 호스트 메모리 기록(writebacks)을 임계 경로에서 제거한다. LLM 워크로드 전반에 걸쳐, ReplayOpt는 정확도 손실 없이 CPU 측 옵티마이저 시간을 최대 55.2% 감소시키고 단계(step) 시간을 최대 21.7% 감소시킨다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

Training (meteorology)Key (lock)ExploitThe InternetServer

타입

Article

IF / 인용수

1.4 / 0

원문

https://doi.org/10.1109/lca.2026.3676470

게재 연도

2026