특정 질병의 조기 진단 검출 모델용 인공 지능 학습 데이터에 필요한 전처리 조합 시스템 및 방법
System for combining artificial intelligence learning data for early diagnosis detection model of specific disease and method thereof
특허 요약
본 발명은 패혈증 조기 진단용 학습 데이터 전처리 시스템에 관한 것이다. 상기 시스템은, 패혈증 조기 진단용 학습 데이터를 구성하는 학습 데이터 생성부; 결측값 추정 모듈들을 구비하는 제1 데이터 전처리 모듈; 이상치 제거 모듈들을 구비하는 제2 데이터 전처리 모듈; 불균형 처리 모듈들을 구비하는 제3 데이터 전처리 모듈; 결측값 추정 모듈, 이상치 제거 모듈, 및 불균형 처리 모듈로 이루어지는 데이터 전처리 모듈 조합들을 설정하고, 상기 설정된 데이터 전처리 모듈 조합들에 따라 학습 데이터를 순차적으로 전처리하는 데이터 전처리부; 각 데이터 전처리 모듈 조합들에 따라 전처리된 학습 데이터들을 이용하여 패혈증 조기 진단용 인공 지능 모델들을 학습시키는 모델 학습부; 학습된 모델들의 성능을 각 데이터 전처리 모듈 조합별로 검증하는 모델 검증부; 및 상기 모델 검증부에 의해 가장 우수한 분류 정확도를 제공하는 데이터 전처리 모듈 조합을 추출하여 제공하는 데이터 전처리 모듈 확정부;를 구비한다.
청구항
번호청구항
1

패혈증 조기 진단용 학습 데이터를 구성하는 학습 데이터 생성부;학습 데이터의 결측값을 추정하는 하나 또는 둘 이상의 결측값 추정 모듈들을 구비하는 제1 데이터 전처리 모듈; 상기 제1 데이터 전처리부에 의하여 결측값이 추정된 학습 데이터의 이상치를 검출하고 제거하는 하나 또는 둘 이상의 이상치 제거 모듈들을 구비하는 제2 데이터 전처리 모듈; 상기 제2 데이터 전처리부에 의해 결측값이 추정되고 이상치가 제거된 학습 데이터의 불균형을 처리하는 하나 또는 둘 이상의 불균형 처리 모듈들을 구비하는 제3 데이터 전처리 모듈; 상기 제1 데이터 전처리 모듈의 결측값 추정 모듈, 상기 제2 데이터 전처리 모듈의 이상치 제거 모듈, 및 상기 제3 데이터 전처리 모듈의 상기 불균형 처리 모듈로 이루어지는 적어도 하나 또는 둘 이상의 데이터 전처리 모듈 조합들을 설정하고, 상기 설정된 데이터 전처리 모듈 조합들에 따라 학습 데이터를 순차적으로 전처리하는 데이터 전처리부; 패혈증 조기 진단용 인공 지능 모델을 구비하고, 상기 데이터 전처리부에 의하여 각 데이터 전처리 모듈 조합들에 따라 순차적으로 전처리된 학습 데이터들을 이용하여 상기 패혈증 조기 진단용 인공 지능 모델을 학습시키는 모델 학습부;상기 전처리된 학습 데이터들을 이용하여 학습된 패혈증 조기 진단용 인공 지능 모델의 성능을 각 데이터 전처리 모듈 조합별로 검증하는 모델 검증부;상기 모델 검증부에 의해 가장 우수한 분류 정확도를 제공하는 데이터 전처리 모듈 조합을 추출하고, 추출된 데이터 전처리 모듈 조합을 데이터 전처리 모듈로 확정하여 제공하는 데이터 전처리 모듈 확정부; 를 구비하는 머신 러닝을 기반으로 한 패혈증 조기 진단용 학습 데이터 전처리 시스템.

2

패혈증 조기 진단용 학습 데이터를 구성하는 학습 데이터 생성부;학습 데이터의 결측값을 추정하는 결측값 추정 모듈, 학습 데이터의 이상치를 검출하고 제거하는 이상치 제거 모듈 및 학습 데이터의 불균형을 처리하는 불균형 처리 모듈을 구비하고, 상기 결측값 추정 모듈을 이용하여 학습 데이터를 1차적으로 전처리하고, 상기 이상치 제거 모듈을 이용하여 상기 결측값 추정된 학습 데이터를 2차적으로 전처리하고, 상기 불균형 처리 모듈을 이용하여 상기 이상치 제거된 학습 데이터를 3차적으로 전처리하는 데이터 전처리부; 및패혈증 조기 진단용 인공 지능 모델을 구비하고, 상기 결측값 추정 모듈, 상기 이상치 제거 모듈 및 상기 불균형 처리 모듈에 의해 순차적으로 전처리된 학습 데이터를 이용하여 상기 패혈증 조기 진단용 인공 지능 모델을 학습시키는 모델 학습부;를 구비하는 머신 러닝을 기반으로 한 패혈증 조기 진단용 학습 데이터 전처리 시스템.

3

제1항 및 제2항 중 어느 한 항에 있어서, 상기 패혈증 조기 진단용 학습 데이터는, 환자들에 대한 혈액 검사 데이터 및 활력 징후 데이터들로 이루어지는 것을 특징으로 하는 머신 러닝을 기반으로 한 패혈증 조기 진단용 학습 데이터 전처리 시스템.

4

제1항 및 제2항 중 어느 한 항에 있어서, 상기 학습 데이터 생성부는,환자들의 혈액 검사 데이터들을 환자 번호를 기준으로 하여 사전 설정된 순서에 따라 특징들(Features)을 나열하고, 환자 번호, 상기 나열된 특징 정보들, 검사 일자 정보, 질병 분류 정보를 함께 저장하여 혈액 검사 데이터들을 재구성하는 혈액 검사 데이터 재구성 모듈; 환자들의 활력 징후 데이터들을 환자 번호를 기준으로 하여 사전 설정된 순서에 따라 나열하고, 환자 번호, 상기 나열된 활력 징후 데이터들, 검사 일자 정보를 함께 저장하여 활력 징후 데이터들을 재구성하는 활력 징후 데이터 재구성 모듈; 환자 번호를 기준으로 하여 검사 일자 정보에 따라 상기 재구성된 혈액 검사 데이터와 상기 재구성된 활력 징후 데이터를 병합하는 병합 모듈; 및병합된 데이터를 이용하여, 패혈증 조기 진단용 학습 데이터를 생성하여 출력하는 학습 데이터 생성 모듈;을 구비하여, 환자들에 대한 혈액 검사 데이터 및 활력 징후 데이터들을 이용하여 패혈증 조기 진단용 학습 데이터를 생성하여 제공하는 것을 특징으로 하는 머신 러닝을 기반으로 한 패혈증 조기 진단용 학습 데이터 전처리 시스템.

5

제4항에 있어서, 상기 병합 모듈은,각 환자에 대하여 상기 재구성된 혈액 검사 데이터와 상기 재구성된 활력 징후 데이터가 복수 개인 경우 검사 일자의 시간 차이가 가장 낮은 값의 데이터를 병합하되, 상기 재구성된 혈액 검사 데이터와 상기 재구성된 활력 징후 데이터의 검사 일자의 차이가 사전 설정된 시간 범위내인 경우에만 병합하는 것을 특징으로 하는 머신 러닝을 기반으로 한 패혈증 조기 진단용 학습 데이터 전처리 시스템.

6

제1항에 있어서, 상기 제1 데이터 전처리 모듈은, 데이터 삭제 방식을 이용하여 결측값이 발생된 데이터는 삭제하는 제1 결측값 추정 모듈;데이터 상관 관계에 따라 결측값을 대체하는 방식을 이용하여 결측값을 추정하는 제2 결측값 추정 모듈;가장 근접한 데이터 개수에 따라 결측값을 대체하는 방식을 이용하여, 결측값 데이터와 가장 근접한 K 개수의 데이터를 찾아 해당 데이터의 평균으로 결측값을 추정하는 제3 결측값 추정 모듈;다중 변수에 따라 결측값을 대체하는 방식을 이용하여, 결측값 및 다른 변수들을 함께 고려하여 결측값을 추정하는 제4 결측값 추정 모듈; 및딥러닝 기반 대체 방식을 이용하는 머신 러닝 모델을 학습하고 학습된 데이터로 결측값을 추정하는 제5 결측값 추정 모듈;중 하나 또는 둘 이상의 결측값 추정 모듈을 구비하는 것을 특징으로 하는 머신 러닝을 기반으로 한 패혈증 조기 진단용 학습 데이터 전처리 시스템.

7

제1항에 있어서, 상기 제2 데이터 전처리 모듈은, 사분위수를 통한 이상치 삭제 방식을 이용하여, 데이터의 하위 25%와 상위 25%를 나누어 데이터의 중앙 50% 범위를 통해 이상치를 탐지하고, 탐지된 이상치를 삭제하는 제1 이상치 제거 모듈;밀도 기반 이상치 삭제 방식을 이용하여, 관측치 주변의 밀도와 근접한 관측치 주변 밀도의 상대적인 비교를 통해 이상치를 삭제하는 제2 이상치 제거 모듈; 및트리 기반 앙상블을 통한 이상치 삭제 방식을 이용하여, 관측치 사이의 거리나 밀도에 의존하지 않고 의사결정나무(Decision Tree)를 이용하여 이상치를 삭제하는 제3 이상치 제거 모듈; 중 하나 또는 둘 이상의 이상치 제거 모듈을 구비하는 것을 특징으로 하는 머신 러닝을 기반으로 한 패혈증 조기 진단용 학습 데이터 전처리 시스템.

8

제1항에 있어서, 제3 데이터 전처리 모듈은,Under Sampling 방식을 이용하여, 다수 범주의 데이터를 소수 범주의 데이터 수에 맞게 변경하는 제1 불균형 처리 모듈; 및Over Sampling 방식을 이용하여, 소수 범주의 데이터를 다수 범주의 데이터 수에 맞게 변경하는 제2 불균형 처리 모듈;중 하나 또는 둘 이상의 불균형 처리 모듈을 구비하는 것을 특징으로 하는 머신 러닝을 기반으로 한 패혈증 조기 진단용 학습 데이터 전처리 시스템.