배경: 표본 수가 적은 고차원 데이터셋(HDLSS)은 생물학 및 생물정보학 분야에서 핵심적인 역할을 한다. HDLSS의 주요 목표 중 하나는 가장 유익한 특징을 선택하고 중복되거나 관련이 없는 특징을 버리는 것이다. 이는 약물 개발의 전환점을 이끌고 질병 진단에 대한 통찰을 제공할 수 있는 정확한 특징(유전자) 선택이 중요한 생물정보학에서 특히 중요하다. 그럼에도 불구하고 HDLSS에서 최적의 특징을 식별하는 일은 여전히 상당한 과제로 남아 있다. 결과: 이러한 문제를 해결하기 위해, HDLSS 맥락에 맞추어 점진적 순열 필터링과 휴리스틱 삼브리드 검색(tribrid search) 전략을 결합한 효과적인 특징 선택 방법을 제안한다. 제안된 방법은 특징 간 상호작용을 고려하며, 검색 과정에서 특징 순위 정보를 활용한다. 또한 선택된 특징의 개수와 질을 모두 평가하는 HDLSS용 새로운 성능 지표를 제안한다. 벤치마크 데이터셋을 기존 방법들과 비교한 결과, 제안된 방법은 선택된 특징의 평균 개수를 37.8에서 5.5로 감소시켰고, 선택된 특징에 기반한 예측 모델의 성능은 0.855에서 0.927로 향상시켰다. 결론: 제안된 방법은 소수의 중요한 특징을 효과적으로 선택하며 높은 예측 성능을 달성한다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.