Comparison between Statistical Models and Machine Learning Methods on Classification for Highly Imbalanced Multiclass Kidney Data | 박만식 교수 연구실 | 성신여자대학교 수리통계데이터사이언스학부

|박만식 교수 연구실

홈

연구 영역

기본 정보

논문·특허

과제

구성원

Article|

인용수 41

·2020

Comparison between Statistical Models and Machine Learning Methods on Classification for Highly Imbalanced Multiclass Kidney Data

Bomi Jeong, Hyunjeong Cho, Jieun Kim, Soon Kil Kwon, Seungwoo Hong, Seungwoo Hong, ChangSik Lee, TaeYeon Kim, Man Sik Park, Seoksu Hong, Seoksu Hong, Tae‐Young Heo

IF 3.706 (2020) Diagnostics

초록

본 연구는 극도로 불균형한 신장 데이터에서 통계 모형의 분류 성능을 비교하는 것을 목적으로 한다. 한국의 국민건강보험공단이 제공하는 건강검진 코호트 데이터베이스를 이용하여 다양한 기계학습 방법으로 모형을 구축한다. 사구체여과율(glomerular filtration rate, GFR)은 만성콩팥병(chronic kidney disease, CKD)을 진단하는 데 사용되며, Modification of Diet in Renal Disease 방법을 사용하여 산출하고 5단계(1, 2, 3A 및 3B, 4, 5)로 분류한다. 추정 GFR에 기반한 서로 다른 CKD 단계는 반응 변수를 6개 범주로 정의한다. 본 연구는 분류를 위해 다항 로지스틱 회귀(multinomial logistic regression, multinomial LR)와 순서형 로지스틱 회귀(ordinal logistic regression, ordinal LR)라는 두 가지 대표적 일반화 선형모형을 사용하고, 랜덤 포레스트(random forest, RF)와 오토인코더(autoencoder, AE)라는 두 가지 기계학습 모형도 사용한다. 4가지 모형의 분류 성능을 정확도, 민감도, 특이도, 정밀도, F1-측정값(F1-Measure) 측면에서 비교한다. CKD 단계를 정확히 분류하는 최적 모형을 찾기 위해, 각 CKD 단계의 비율을 동일하게 한 10-fold 데이터셋으로 데이터를 분할한다. 결과는 반응 변수를 분류할 때, 다항 및 순서형 LR 모형보다 RF와 AE가 정확도에서 더 나은 성능을 보였음을 나타낸다. 그러나 매우 불균형한 데이터셋을 모형화하면 모형 성능의 정확도가 실제 성능을 왜곡할 수 있다. 이는 소수 범주를 다수 범주로 분류하더라도 정확도가 높게 나타날 수 있기 때문이다. 이러한 문제를 성능 해석에서 해결하기 위해, 우리는 혼동행렬로부터의 정확도뿐 아니라 각 범주별 민감도, 특이도, 정밀도, 그리고 F-1 측정값을 함께 고려한다. 각 모형에 대해 단일한 값으로 분류 성능을 제시하기 위해, 각 모형의 거시 평균(macro-average)과 미시 가중(micro-weighted) 값을 계산한다. 결론적으로, AE는 모든 성능 지표에서 CKD 단계를 정확히 분류하는 최적의 모형이다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

Multinomial logistic regressionRandom forestComputer scienceArtificial intelligenceLogistic regressionConfusion matrixMachine learningAutoencoderStatisticsData mining

타입

Article

IF / 인용수

3.706 / 41

원문

https://doi.org/10.3390/diagnostics10060415

게재 연도

2020