딥러닝 모델 압축과 엣지 스케줄링을 위한 자동화 배포 최적화 연구

Automation for deep learning compression and edge scheduling

연구 내용

CNN의 post-training quantization을 조합 탐색 자동 튜닝으로 최적화하고, 엣지 기기에서 다중 DNN 실행을 계층적 디스패처로 스케줄링하는 연구

자원 제약 환경에서 CNN을 효율적으로 배치하기 위해서는 정확도 손실을 최소화하면서 비트 표현을 낮추는 quantization이 필요합니다. 본 연구는 calibration, clipping, granularity, mixed-precision 등 보완적 방법 조합을 전수 탐색하지 않고, gradient tree boosting 기반 auto-tuner로 최적 구성과 탐색 비용을 함께 줄입니다. 또한 양자화 설정을 실제 배포 맥락에서 적용하기 위해 딥러닝 컴파일러 형태로 구현합니다. 더 나아가 엣지 기기에서 여러 DNN을 이기종 처리 유닛에 맞춰 실행하기 위해 dispatcher와 scheduling policy를 분리한 계층적 디스패처 구조를 제안하고, 서브그래프 파티셔닝과 분산 실행을 통해 스케일 가능성을 확보합니다.

관련 프로젝트

0건

연구 흐름

처음에는 retraining 없이 수행되는 post-training quantization의 정확도 하락을 완화하기 위해, 여러 보완 기법의 조합을 빠르게 찾아야 한다는 요구에서 출발했습니다. 이후 전수·휴리스틱 탐색의 시간 제약을 줄이기 위해 gradient tree boosting 기반 auto-tuner를 설계하고, 다양한 CNN에서 양자화 오차와 탐색 시간을 함께 개선하는 방향으로 연구를 수행했습니다. 병행하여 배포 단계의 병목인 실행 스케줄링 문제로 확장해, 이기종 엣지 환경에서 여러 DNN을 계층적으로 디스패치하는 아키텍처를 제안하며 연구의 적용 범위를 넓혔습니다.

활용 가능성

활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.

온디바이스 인퍼런스 최적화
quantization 구성 자동 튜닝
다중 타깃 압축 파이프라인
딥러닝 컴파일러 기반 배포
이기종 엣지 워크로드 스케줄링
서브그래프 파티셔닝 전략
여러 DNN 동시 실행 관리
배포 아키텍처의 확장성 확보
처리 유닛 간 실행 조정
자원 제약 환경 성능 안정화