An effective heuristic for developing hybrid feature selection in high dimensional and low sample size datasets | 오세종 교수 연구실 | 단국대학교 소프트웨어학과

오세종 교수 연구실

홈

기본 정보

연구 분야

프로젝트

논문

구성원

article|

인용수 8

·2024

An effective heuristic for developing hybrid feature selection in high dimensional and low sample size datasets

Hyunseok Shin, Sejong Oh

IF 3.3 (2024) BMC Bioinformatics

초록

배경: 표본 수가 적은 고차원 데이터셋(HDLSS)은 생물학 및 생물정보학 분야에서 핵심적인 역할을 한다. HDLSS의 주요 목표 중 하나는 가장 유익한 특징을 선택하고 중복되거나 관련이 없는 특징을 버리는 것이다. 이는 약물 개발의 전환점을 이끌고 질병 진단에 대한 통찰을 제공할 수 있는 정확한 특징(유전자) 선택이 중요한 생물정보학에서 특히 중요하다. 그럼에도 불구하고 HDLSS에서 최적의 특징을 식별하는 일은 여전히 상당한 과제로 남아 있다. 결과: 이러한 문제를 해결하기 위해, HDLSS 맥락에 맞추어 점진적 순열 필터링과 휴리스틱 삼브리드 검색(tribrid search) 전략을 결합한 효과적인 특징 선택 방법을 제안한다. 제안된 방법은 특징 간 상호작용을 고려하며, 검색 과정에서 특징 순위 정보를 활용한다. 또한 선택된 특징의 개수와 질을 모두 평가하는 HDLSS용 새로운 성능 지표를 제안한다. 벤치마크 데이터셋을 기존 방법들과 비교한 결과, 제안된 방법은 선택된 특징의 평균 개수를 37.8에서 5.5로 감소시켰고, 선택된 특징에 기반한 예측 모델의 성능은 0.855에서 0.927로 향상시켰다. 결론: 제안된 방법은 소수의 중요한 특징을 효과적으로 선택하며 높은 예측 성능을 달성한다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

Feature selectionComputer scienceBenchmark (surveying)Feature (linguistics)HeuristicMetric (unit)Data miningSelection (genetic algorithm)Machine learningSample size determination

타입

article

IF / 인용수

3.3 / 8

원문

https://doi.org/10.1186/s12859-024-06017-9

게재 연도

2024

프로젝트 공고 서비스 문의 자주 묻는 질문 이용약관 개인정보처리방침

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)