머신 러닝 예측 모델의 피처 중요도 산출 방법 및 이를 수행하기 위한 컴퓨팅 장치
METHOD FOR CALCULATING FEATURE IMPORTANCE OF MACHINE LEARNING PREDICTIVE MODEL AND COMPUTING DEVICE FOR EXECUTING THE SAME
특허 요약
머신 러닝 예측 모델의 피처 중요도 산출 방법 및 이를 수행하기 위한 컴퓨팅 장치가 개시된다. 본 발명에서는 머신 러닝 예측 모델 중 분류 모델과 회귀 모델 각각에 대해 피처 중요도를 산출하는 방법이 개시된다. 개시되는 실시예에 의하면, 머신 러닝 예측 모델(분류 모델 및 회귀 모델)에서 특정 피처의 피처 중요도 산출 시, 피처 파워와 피처 상호작용 파워를 각각 구분하여 산출할 수 있으며, 그로 인해 특정 피처의 피처 파워와 피처 상호작용 파워를 구분하여 시각화 할 수 있게 된다.
청구항
번호청구항
1

하나 이상의 프로세서들, 및상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치에서 수행되는 방법으로서, 머신 러닝 예측 모델 중 분류 모델의 구축에 사용되는 전체 데이터 셋에서 특정 피처를 제외한 나머지 피처들을 각각 랜덤화 하여 제1 랜덤 데이터 셋을 준비하는 단계;상기 전체 데이터 셋에서 상기 특정 피처만을 랜덤화 하여 제2 랜덤 데이터 셋을 준비하는 단계;상기 전체 데이터 셋, 상기 제1 랜덤 데이터 셋, 및 상기 제2 랜덤 데이터 셋을 각각 상기 머신 러닝 예측 모델에 입력하여 예측 결과를 얻는 단계;상기 전체 데이터 셋을 상기 머신 러닝 예측 모델에 입력하여 얻은 예측 결과 중 올바르게 예측한 샘플들을 기 설정된 그룹으로 분류하는 단계; 및상기 분류된 그룹에 기반하여 상기 특정 피처의 피처 중요도를 산출하는 단계를 포함하고,상기 기 설정된 그룹으로 분류하는 단계는, 상기 올바르게 예측한 샘플들을 상기 제1 랜덤 데이터 셋을 상기 머신 러닝 예측 모델에 입력하여 얻은 제1 랜덤 예측 결과 및 상기 제2 랜덤 데이터 셋을 상기 머신 러닝 예측 모델에 입력하여 얻은 제2 랜덤 예측 결과에 따라 기 설정된 그룹들 중 어느 하나의 그룹으로 분류하되, 상기 제1 랜덤 예측 결과는 올바르고 상기 제2 랜덤 예측 결과는 올바르지 않은 경우 제1 그룹으로 분류하고, 상기 제1 랜덤 예측 결과는 올바르지 않고 상기 제2 랜덤 예측 결과는 올바른 경우 제2 그룹으로 분류하며, 상기 제1 랜덤 예측 결과도 올바르고 상기 제2 랜덤 예측 결과도 올바른 경우 제3 그룹으로 분류하고, 상기 제1 랜덤 예측 결과도 올바르지 않고 상기 제2 랜덤 예측 결과도 올바르지 않은 경우 제4 그룹으로 분류하는, 피처 중요도 산출 방법.

2

삭제

3

삭제

4

청구항 1에 있어서, 상기 특정 피처의 피처 중요도를 산출하는 단계는, 상기 전체 데이터 셋의 샘플들 중 상기 제1 그룹에 속하는 비율에 기반하여 상기 특정 피처의 피처 파워를 산출하는 단계; 및상기 전체 데이터 셋의 샘플들 중 상기 제4 그룹에 속하는 비율에 기반하여 상기 특정 피처의 피처 상호작용 파워를 산출하는 단계를 포함하는, 피처 중요도 산출 방법.

5

청구항 4에 있어서, 상기 특정 피처의 피처 중요도를 산출하는 단계는, 상기 특정 피처의 피처 파워와 상기 피처 상호작용 파워를 합산하여 상기 특정 피처의 피처 중요도를 산출하는 단계를 더 포함하는, 피처 중요도 산출 방법.

6

하나 이상의 프로세서들, 및상기 하나 이상의 프로세서들에 의해 실행되는 하나 이상의 프로그램들을 저장하는 메모리를 구비한 컴퓨팅 장치에서 수행되는 방법으로서, 머신 러닝 예측 모델 중 회귀 모델의 구축에 사용되는 전체 데이터 셋에서 특정 피처를 제외한 나머지 피처들을 각각 랜덤화 하여 제1 랜덤 데이터 셋을 준비하는 단계;상기 전체 데이터 셋에서 상기 특정 피처만을 랜덤화 하여 제2 랜덤 데이터 셋을 준비하는 단계;상기 전체 데이터 셋, 상기 제1 랜덤 데이터 셋, 및 상기 제2 랜덤 데이터 셋을 각각 상기 머신 러닝 예측 모델에 입력하여 예측 결과를 얻는 단계;상기 각 예측 결과들과 정답 값 간의 차이에 기반하여 상기 전체 데이터 셋을 기 설정된 그룹으로 분류하는 단계; 및상기 분류된 그룹을 기반으로 상기 특정 피처의 피처 중요도를 산출하는 단계를 포함하고, 상기 기 설정된 그룹으로 분류하는 단계는, 상기 전체 데이터 셋을 상기 머신 러닝 예측 모델에 입력하여 얻은 예측 결과와 정답 값 간의 차이를 통해 제1 차이 값을 산출하는 단계;상기 제1 랜덤 데이터 셋을 상기 머신 러닝 예측 모델에 입력하여 얻은 예측 결과와 정답 값 간의 차이를 통해 제2 차이 값을 산출하는 단계; 상기 제2 랜덤 데이터 셋을 상기 머신 러닝 예측 모델에 입력하여 얻은 예측 결과와 정답 값 간의 차이를 통해 제3 차이 값을 산출하는 단계; 및상기 전체 데이터 셋을 상기 제1 차이 값, 상기 제2 차이 값, 및 상기 제3 차이 값 간의 크기에 기반하여 기 설정된 그룹 중 어느 하나의 그룹으로 분류하는 단계를 포함하며, 상기 기 설정된 그룹으로 분류하는 단계는, 상기 제2 차이 값 및 상기 제3 차이 값 중 어느 하나는 상기 제1 차이 값 보다 크고, 다른 하나는 상기 제1 차이 값 보다 작은 경우 제1 그룹으로 분류하는 단계;상기 제1 차이 값, 상기 제2 차이 값, 및 상기 제3 차이 값이 동일한 경우 제2 그룹으로 분류하는 단계; 및상기 제2 차이 값 및 상기 제3 차이 값이 모두 상기 제1 차이 값 보다 크거나 작은 경우 제3 그룹으로 분류하는 단계를 더 포함하는, 피처 중요도 산출 방법.

7

삭제

8

삭제

9

삭제

10

청구항 6에 있어서, 상기 특정 피처의 피처 중요도를 산출하는 단계는, 상기 제1 그룹에 속하는 샘플 중 상기 제3 차이 값과 상기 제1 차이 값에 기반하여 상기 특정 피처의 피처 파워를 산출하는 단계; 및상기 제3 그룹에 속하는 샘플 중 상기 제3 차이 값과 상기 제1 차이 값에 기반하여 상기 특정 피처의 피처 상호작용 파워를 산출하는 단계를 포함하는, 피처 중요도 산출 방법.

11

청구항 10에 있어서, 상기 특정 피처의 피처 파워는, 상기 제1 그룹에 속하는 샘플 중 상기 제3 차이 값과 상기 제1 차이 값 간의 평균 차이 값에 기반하여 상기 피처 파워를 산출하고, 상기 특정 피처의 피처 상호작용 파워는, 상기 제1 그룹에 속하는 샘플 중 상기 제3 차이 값과 상기 제1 차이 값 간의 평균 차이 값에 기반하여 상기 피처 상호작용 파워를 산출하는, 피처 중요도 산출 방법.

12

청구항 10에 있어서, 상기 특정 피처의 피처 중요도를 산출하는 단계는, 상기 특정 피처의 피처 파워와 상기 피처 상호작용 파워를 합산하여 상기 특정 피처의 피처 중요도를 산출하는 단계를 더 포함하는, 피처 중요도 산출 방법.

13

하나 이상의 프로세서들;메모리; 및하나 이상의 프로그램들을 포함하고,상기 하나 이상의 프로그램들은 상기 메모리에 저장되고, 상기 하나 이상의 프로세서들에 의해 실행되도록 구성되며, 상기 하나 이상의 프로그램들은,머신 러닝 예측 모델 중 분류 모델의 구축에 사용되는 전체 데이터 셋에서 특정 피처를 제외한 나머지 피처들을 각각 랜덤화 하여 제1 랜덤 데이터 셋을 준비하기 위한 명령;상기 전체 데이터 셋에서 상기 특정 피처만을 랜덤화 하여 제2 랜덤 데이터 셋을 준비하기 위한 명령;상기 전체 데이터 셋, 상기 제1 랜덤 데이터 셋, 및 상기 제2 랜덤 데이터 셋을 각각 상기 머신 러닝 예측 모델에 입력하여 예측 결과를 얻기 위한 명령;상기 전체 데이터 셋을 상기 머신 러닝 예측 모델에 입력하여 얻은 예측 결과 중 올바르게 예측한 샘플들을 기 설정된 그룹으로 분류하기 위한 명령; 및상기 분류된 그룹에 기반하여 상기 특정 피처의 피처 중요도를 산출하기 위한 명령을 포함하고, 상기 기 설정된 그룹으로 분류하기 위한 명령은, 상기 올바르게 예측한 샘플들을 상기 제1 랜덤 데이터 셋을 상기 머신 러닝 예측 모델에 입력하여 얻은 제1 랜덤 예측 결과 및 상기 제2 랜덤 데이터 셋을 상기 머신 러닝 예측 모델에 입력하여 얻은 제2 랜덤 예측 결과에 따라 기 설정된 그룹들 중 어느 하나의 그룹으로 분류하되, 상기 제1 랜덤 예측 결과는 올바르고 상기 제2 랜덤 예측 결과는 올바르지 않은 경우 제1 그룹으로 분류하고, 상기 제1 랜덤 예측 결과는 올바르지 않고 상기 제2 랜덤 예측 결과는 올바른 경우 제2 그룹으로 분류하며, 상기 제1 랜덤 예측 결과도 올바르고 상기 제2 랜덤 예측 결과도 올바른 경우 제3 그룹으로 분류하고, 상기 제1 랜덤 예측 결과도 올바르지 않고 상기 제2 랜덤 예측 결과도 올바르지 않은 경우 제4 그룹으로 분류하는, 컴퓨팅 장치.

14

삭제

15

삭제

16

청구항 13에 있어서, 상기 특정 피처의 피처 중요도를 산출하기 위한 명령은, 상기 전체 데이터 셋의 샘플들 중 상기 제1 그룹에 속하는 비율에 기반하여 상기 특정 피처의 피처 파워를 산출하기 위한 명령; 및상기 전체 데이터 셋의 샘플들 중 상기 제4 그룹에 속하는 비율에 기반하여 상기 특정 피처의 피처 상호작용 파워를 산출하기 위한 명령을 포함하는, 컴퓨팅 장치.

17

청구항 16에 있어서, 상기 특정 피처의 피처 중요도를 산출하기 위한 명령은, 상기 특정 피처의 피처 파워와 상기 피처 상호작용 파워를 합산하여 상기 특정 피처의 피처 중요도를 산출하기 위한 명령을 더 포함하는, 컴퓨팅 장치.

18

하나 이상의 프로세서들;메모리; 및하나 이상의 프로그램들을 포함하고,상기 하나 이상의 프로그램들은 상기 메모리에 저장되고, 상기 하나 이상의 프로세서들에 의해 실행되도록 구성되며, 상기 하나 이상의 프로그램들은, 머신 러닝 예측 모델 중 회귀 모델의 구축에 사용되는 전체 데이터 셋에서 특정 피처를 제외한 나머지 피처들을 각각 랜덤화 하여 제1 랜덤 데이터 셋을 준비하기 위한 명령;상기 전체 데이터 셋에서 상기 특정 피처만을 랜덤화 하여 제2 랜덤 데이터 셋을 준비하기 위한 명령;상기 전체 데이터 셋, 상기 제1 랜덤 데이터 셋, 및 상기 제2 랜덤 데이터 셋을 각각 상기 머신 러닝 예측 모델에 입력하여 예측 결과를 얻기 위한 명령;상기 각 예측 결과들과 정답 값 간의 차이에 기반하여 상기 전체 데이터 셋을 기 설정된 그룹으로 분류하기 위한 명령; 및상기 분류된 그룹을 기반으로 상기 특정 피처의 피처 중요도를 산출하기 위한 명령을 포함하고,상기 기 설정된 그룹으로 분류하기 위한 명령은,상기 전체 데이터 셋을 상기 머신 러닝 예측 모델에 입력하여 얻은 예측 결과와 정답 값 간의 차이를 통해 제1 차이 값을 산출하기 위한 명령;상기 제1 랜덤 데이터 셋을 상기 머신 러닝 예측 모델에 입력하여 얻은 예측 결과와 정답 값 간의 차이를 통해 제2 차이 값을 산출하기 위한 명령; 상기 제2 랜덤 데이터 셋을 상기 머신 러닝 예측 모델에 입력하여 얻은 예측 결과와 정답 값 간의 차이를 통해 제3 차이 값을 산출하기 위한 명령; 및상기 전체 데이터 셋을 상기 제1 차이 값, 상기 제2 차이 값, 및 상기 제3 차이 값 간의 크기에 기반하여 기 설정된 그룹 중 어느 하나의 그룹으로 분류하기 위한 명령을 포함하며, 상기 기 설정된 그룹으로 분류하기 위한 명령은,상기 제2 차이 값 및 상기 제3 차이 값 중 어느 하나는 상기 제1 차이 값 보다 크고, 다른 하나는 상기 제1 차이 값 보다 작은 경우 제1 그룹으로 분류하기 위한 명령;상기 제1 차이 값, 상기 제2 차이 값, 및 상기 제3 차이 값이 동일한 경우 제2 그룹으로 분류하기 위한 명령; 및상기 제2 차이 값 및 상기 제3 차이 값이 모두 상기 제1 차이 값 보다 크거나 작은 경우 제3 그룹으로 분류하기 위한 명령을 더 포함하는, 컴퓨팅 장치.

19

삭제

20

삭제

21

삭제

22

청구항 18에 있어서, 상기 특정 피처의 피처 중요도를 산출하기 위한 명령은,상기 제1 그룹에 속하는 샘플 중 상기 제3 차이 값과 상기 제1 차이 값에 기반하여 상기 특정 피처의 피처 파워를 산출하기 위한 명령; 및상기 제3 그룹에 속하는 샘플 중 상기 제3 차이 값과 상기 제1 차이 값에 기반하여 상기 특정 피처의 피처 상호작용 파워를 산출하기 위한 명령을 포함하는, 컴퓨팅 장치.

23

청구항 22에 있어서, 상기 특정 피처의 피처 파워는, 상기 제1 그룹에 속하는 샘플 중 상기 제3 차이 값과 상기 제1 차이 값 간의 평균 차이 값에 기반하여 상기 피처 파워를 산출하고, 상기 특정 피처의 피처 상호작용 파워는, 상기 제1 그룹에 속하는 샘플 중 상기 제3 차이 값과 상기 제1 차이 값 간의 평균 차이 값에 기반하여 상기 피처 상호작용 파워를 산출하는, 컴퓨팅 장치.

24

청구항 22에 있어서, 상기 특정 피처의 피처 중요도를 산출하기 위한 명령은,상기 특정 피처의 피처 파워와 상기 피처 상호작용 파워를 합산하여 상기 특정 피처의 피처 중요도를 산출하기 위한 명령을 더 포함하는, 컴퓨팅 장치.