확률적 엣지 추론·파인튜닝 실행 최적화 연구

Execution Optimization for Stochastic Edge Inference and LLM Fine-tuning

연구 내용

무선 신호 변동과 자원 간섭 환경에서 추론 실행 위치를 적응적으로 선택하고, 온디바이스 LLM 파인튜닝을 비동기 병렬 실행으로 가속하는 연구

엣지에서 딥러닝 추론과 온디바이스 파인튜닝은 CPU와 코프로세서, 클라우드 오프로딩 등 실행 선택지가 많지만, 무선 네트워크 신호 변동과 자원 간섭으로 실시간 성능과 에너지 효율이 함께 흔들립니다. 김영근 연구실은 강화학습 기반 경량 실행 스케일링 엔진으로 신경망 특성과 사용 가능한 시스템 자원을 고려해 에너지 효율적인 실행 타깃을 연속 학습·선택합니다. 또한 메모리 증가 없이 메모리·연산 집약 오퍼레이션을 비동기 병렬 실행하여 LLM 파인튜닝을 가속하고, 비동기 파라미터 업데이트가 유도하는 그래디언트 노이즈를 정규화 요소로 활용하는 차별성을 갖습니다.

관련 프로젝트

0건

연구 흐름

초기에는 AutoScale로 엣지-클라우드 협업 환경에서 추론이 CPU에 실행될지, 코프로세서에 실행될지, 또는 오프로딩할지를 확률적 런타임 분산과 함께 결정하는 실행 스케일링 접근을 제안했습니다. 이후 ReAx에서는 온디바이스 LLM 파인튜닝의 병목을 메모리·연산 집약 오퍼레이션의 순차 실행에서 비동기 병렬 실행 구조로 전환해 가속과 에너지 감소를 동시에 노렸습니다. 마지막으로 비동기 업데이트에 따른 그래디언트 노이즈가 부작용이 아닌 정규화로 작동하는 메커니즘까지 포함해 실사용 최적화를 지향하는 흐름으로 확장되었습니다.

활용 가능성

활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.

모바일 엣지 추론 실행 위치 결정
코프로세서 오프로딩 정책
실시간 제약 하 에너지 최소화
자원 간섭 하 성능 예측
경량 강화학습 기반 제어기
비동기 병렬 실행 파이프라인
메모리 사용량 제약 하 LLM 튜닝 가속
그래디언트 노이즈 기반 정규화
온디바이스 파인튜닝 SLA 관리
스토캐스틱 실행 환경 적응