대규모 데이터셋에 존재하는 중복되거나 무관한 특징은 기계학습 모델의 효율성을 유의미하게 저해하여, 성능이 급격히 저하될 수 있다. 본 논문은 MLP(다층 퍼셉트론, multilayer perceptron) 네트워크를 이용한 다중 클래스 네트워크 이상(anomalies) 탐지를 위해 IGRF-RFE를 제안한다. IGRF-RFE는 속도를 위한 필터(filter) 방법의 특성과 관련성 탐색을 위한 래퍼(wrapper) 방법의 특성을 모두 활용하는 하이브리드 특징 선택(feature selection) 기법이다. 제1단계에서는 정보 이득(information gain, IG)과 랜덤 포레스트(random forest, RF)를 각각 사용하는 두 가지 필터 방법의 조합을 통해 특징 부분집합(feature subset) 탐색 공간을 축소한다. 이 두 필터 방법을 결합함으로써, IG에 의해 고주파 값(high-frequency values)이 선택된 덜 중요한 특징들의 영향이 RF에 의해 보다 효과적으로 관리되어, 특징 부분집합 탐색 공간에 포함될 보다 관련성 높은 특징들이 도출된다. 제2단계에서는 유사한 특징들의 관련성을 고려하면서, 차원(feature dimension)을 추가로 감소시키기 위해 재귀적 특징 제거(RFE, recursive feature elimination)를 제공하는 기계학습 기반 래퍼 방법을 사용한다. UNSW-NB15 데이터셋을 기반으로 한 실험 결과는, 제안한 방법이 특징 공간(feature space)을 줄이면서도 더 관련성 높은 특징을 선택할 수 있어 이상 탐지 정확도를 향상시킬 수 있음을 확인하였다. 그 결과, 특징이 42에서 23으로 감소하였고, MLP의 다중 분류 정확도는 82.25%에서 84.24%로 향상되었다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.