HeteroSwitch: Characterizing and Taming System-Induced Data Heterogeneity in Federated Learning | 김영근 교수 연구실 | 고려대학교 컴퓨터학과

|김영근 교수 연구실

홈

연구 영역

기본 정보

논문·특허

과제

구성원

Preprint|

인용수 0

·2024

HeteroSwitch: Characterizing and Taming System-Induced Data Heterogeneity in Federated Learning

Gyudong Kim, Mehdi Ghasemi, Soroush Heidari, Seungryong Kim, Young Geun Kim, Sarma Vrudhula, Carole-Jean Wu

arXiv (Cornell University)

초록

연합 학습(Federated Learning, FL)은 사용자 단말 장치에서 원시 데이터를 온디바이스로 유지함으로써 개인정보를 보호하면서, 사용자 단말 장치들 전반에 걸쳐 협력적으로 딥러닝 모델을 학습시키는 실용적인 접근법이다. FL에서는 참여하는 사용자 단말 장치들이 하드웨어 및 소프트웨어 구성 측면에서 매우 분절되어 있다. 이러한 분절성은 FL에서 새로운 유형의 데이터 이질성, 즉 \textit{시스템 유발 데이터 이질성(system-induced data heterogeneity)}을 야기하는데, 각 장치가 하드웨어와 소프트웨어 구성에 따라 서로 다른 데이터를 생성하기 때문이다. 본 논문에서는 먼저 시스템 유발 데이터 이질성이 FL 모델 성능에 미치는 영향을 규명한다. 우리는 공급업체와 성능 등급에 따른 변이를 포함하는 이기종 장치들을 사용하여 데이터셋을 수집한다. 이 데이터셋을 활용하여, \textit{시스템 유발 데이터 이질성}이 정확도에 부정적인 영향을 미치며, FL에서의 공정성 및 도메인 일반화 문제를 악화시킨다는 점을 보인다. 이러한 문제를 해결하기 위해, 우리는 HeteroSwitch를 제안하는데, 이는 HW 및 SW 구성이 상이함에 의해 유발되는 편향의 수준에 따라 일반화 기법(즉, ISP 변환과 SWAD)을 적응적으로 채택한다. 현실적인 FL 데이터셋(FLAIR)을 이용한 평가에서, HeteroSwitch는 장치 유형 전반에 걸쳐 평균 정밀도의 분산을 6.3\% 감소시킨다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

Computer scienceData science

타입

Preprint

IF / 인용수

- / 0

원문

http://arxiv.org/abs/2403.04207

게재 연도

2024