불완전한 데이터셋은 데이터 전처리에서 피할 수 없는 문제이며, 주로 많은 기계학습 알고리즘이 모델을 학습하는 데 활용하지 못하게 한다. 이러한 문제를 해결하기 위해 다양한 데이터 대치(imputation) 접근법이 제안되었고, 서로의 방법들을 검증하며 발전해 왔다. 이들 대치는 서로 다른 개념을 가진 다양한 기계학습 알고리즘을 사용하여 가장 적절한 값으로 예측하도록 설정되었다. 또한 일부 데이터셋에서는 결측값을 완성하기 위해 대치 방법의 정확한 추정이 특히 매우 중요하며, 특히 의료 데이터에서의 대치(imputing)에서는 더욱 그러하다. 본 논문의 목적은 K-최근접 이웃 대치(K-nearest Neighbors Imputation, KNNImputer) 방법, 베이지안 주성분분석(Bayesian Principal Component Analysis, BPCA) 대치 방법, 중심방정식에 의한 다중대치(Multiple Imputation by Center Equation, MICE) 방법, 노이징 자동인코더 신경망을 이용한 다중대치(Multiple Imputation with denoising autoencoder neural network, MIDAS) 방법을 포함하는 우수한 최신 벤치마크의 역량을 제시하는 데 있다. 이들 방법은 결측값 대치를 위한 적절한 데이터 지점을 최적화하고 평가하는 데 있어 달성 가능한 해결 방안에 기여해 왔다. 우리는 병원에서 수집한 동일한 4개 데이터셋을 기반으로, 모든 대치 기법에 대해 실험을 수행하였다. 구현 결과를 측정하고 서로 비교하기 위해 평균절대오차(Mean Absolute Error, MAE)와 제곱평균제곱근오차(Root Mean Square Error, RMSE)를 사용하여 결측 데이터 문제를 극복하는 매우 견고하고 적절한 방법이 있음을 입증하였다. 그 결과, 실험에서는 KNNImputer와 MICE가 BPCA 및 MIDAS 대치보다 더 우수한 성능을 보였으며, BPCA는 MIDAS 알고리즘보다 더 나은 성능을 보였다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.