프로젝트 소개
본 과제는 지속적으로 유입되는 대용량 데이터를 빠르게 모으고 처리해, 분산 학습과 점진적 모델 업데이트를 이어주는 데이터 파이프라인 구축 연구임.
연구 목표는 데이터 수집, 데이터 ingestion, 분산 학습, 점진적 모델 업데이트를 하나로 연결하는 구조를 만드는 데 있음. 이를 위해 분산 웹 크롤링 기반 수집과 중복제거 파이프라인, Kafka기반 ingestion 구조, 분산 프레임워크 기반 학습 모델, Edge computing에서의 전이 연합학습, Real World 벤치마크 정의 및 성능 평가를 수행함. 기대 효과는 자율주행, 사이버보안 감시센터, IoT 센서, SNS 등에서 복잡한 데이터 파이프라인을 쉽게 구축하고, 실시간 모델 업데이트를 가능하게 하는 데 있음.