최성경 교수 연구실
기본 정보
연구 분야
프로젝트
논문
구성원
article|
인용수 6
·2024
Evaluation of penalized and machine learning methods for asthma disease prediction in the Korean Genome and Epidemiology Study (KoGES)
Yongjun Choi, Jun-Ho Cha, Sungkyoung Choi
IF 3.3 (2024) BMC Bioinformatics
초록

배경: 전장유전체연관분석(genome-wide association studies)은 인체 질환과 관련된 유전적 변이를 성공적으로 확인해 왔다. 최근에는 질병 예측을 위해 패널널티 기반 및 머신러닝 방법에 근거한 다양한 통계적 접근법이 제안되었다. 본 연구에서는 한국인 유전체역학조사(Korean Genome and Epidemiology Study, KoGES)의 한국 칩(Korean Chip, KORV1.1)을 이용하여 천식을 예측하는 여러 방법의 성능을 평가하였다. 결과: 먼저, 여러 역학적 요인들을 보정한 로지스틱 회귀를 사용하여 단일-변이 검정(single-variant tests)으로부터 단일염기다형성(single-nucleotide polymorphisms)을 선택하였다. 다음으로 질병 예측을 위해 다음의 방법들을 평가하였다: 릿지(ridge), 최소 절대 수축 및 선택 연산자(least absolute shrinkage and selection operator), 엘라스틱 넷(elastic net), 매끈하게 잘린 절대 편차(smoothly clipped absolute deviation), 서포트 벡터 머신(support vector machine), 랜덤 포레스트(random forest), 부스팅(boosting), 배깅(bagging), 순진 베이즈(naïve Bayes), 및 k-최근접 이웃(k-nearest neighbor). 마지막으로, 수신자 조작 특성 곡선(receiver operating characteristic curves) 아래 면적(area under the curve), 정밀도(precision), 재현율(recall), F1-score, 코헨의 카파(Cohen's Kappa), 균형 정확도(balanced accuracy), 오류율(error rate), 매튜 상관계수(Matthews correlation coefficient), 정밀도-재현율 곡선 아래 면적(area under the precision-recall curve)을 바탕으로 예측 성능을 비교하였다. 추가로, 불균형 문제를 다루기 위해 3가지 오버샘플링(oversampling) 알고리즘을 사용하였다. 결론: 본 연구의 결과는 패널널티 기반 방법이 머신러닝 방법으로 달성한 예측 성능보다 천식 예측에서 더 우수함을 보여준다. 한편, 오버샘플링 연구에서는 랜덤포레스트(randomforest) 및 부스팅(boosting) 방법이 전반적으로 패널널티 기반 방법보다 더 나은 예측 성능을 나타냈다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드
Random forestMachine learningArtificial intelligenceComputer scienceSupport vector machineNaive Bayes classifierBoosting (machine learning)Receiver operating characteristicFeature selectionPredictive modelling
타입
article
IF / 인용수
3.3 / 6
게재 연도
2024

주식회사 디써클

대표 장재우,이윤구서울특별시 강남구 역삼로 169, 명우빌딩 2층 (TIPS타운 S2)대표 전화 0507-1312-6417이메일 info@rndcircle.io사업자등록번호 458-87-03380호스팅제공자 구글 클라우드 플랫폼(GCP)

© 2026 RnDcircle. All Rights Reserved.