주요 논문
5
*2026년 기준 최근 6년 이내 논문에 한해 Impact Factor가 표기됩니다.
1
article
|
인용수 0
·
2025A method for explaining individual predictions in neural networks
Sejong Oh
IF 2.5 (2025)
PeerJ Computer Science
배경: 최근 기계학습 모델의 예측 결과에 대한 설명가능성(explainability)이 주목받고 있다. 대부분의 고성능 예측 모델은 설명이 불가능한 블랙박스(black box)이다. 인공신경망(artificial neural networks) 역시 블랙박스 모델로 간주된다. 비록 이미지 분류 결과를 어느 정도 설명할 수는 있으나, 표 형태(tabular) 데이터에 대한 분류 및 회귀 결과를 설명하는 데에는 여전히 어려움이 있다. 본 연구에서는 신경망 기반 예측 모델로부터 도출된 개별 예측 결과를 설명하고자 한다. 방법: )/weighted sum. 이러한 관점에 기초하여, 신경망을 통해 흐르는 과정에서 각 입력 값이 출력에 기여하는 정도를 계산할 수 있다. 결과: 제안된 방법을 통해 신경망은 더 이상 블랙박스가 아니다. 제안된 방법은 신경망이 수행한 예측을 효과적으로 설명하며, 은닉층의 깊이와 각 은닉층의 노드 수에 독립적이다. 이는 이러한 해석에 대한 명확한 근거를 제공한다. 제안된 방법은 회귀 및 분류 모델 모두에 적용할 수 있다. 또한 제안된 방법은 Python 라이브러리로 구현되어 사용이 용이하다.
https://doi.org/10.7717/peerj-cs.2802
Artificial neural network
Computer science
Artificial intelligence
Machine learning
2
article
|
인용수 8
·
2024An effective heuristic for developing hybrid feature selection in high dimensional and low sample size datasets
Hyunseok Shin, Sejong Oh
IF 3.3 (2024)
BMC Bioinformatics
배경: 표본 수가 적은 고차원 데이터셋(HDLSS)은 생물학 및 생물정보학 분야에서 핵심적인 역할을 한다. HDLSS의 주요 목표 중 하나는 가장 유익한 특징을 선택하고 중복되거나 관련이 없는 특징을 버리는 것이다. 이는 약물 개발의 전환점을 이끌고 질병 진단에 대한 통찰을 제공할 수 있는 정확한 특징(유전자) 선택이 중요한 생물정보학에서 특히 중요하다. 그럼에도 불구하고 HDLSS에서 최적의 특징을 식별하는 일은 여전히 상당한 과제로 남아 있다.
결과: 이러한 문제를 해결하기 위해, HDLSS 맥락에 맞추어 점진적 순열 필터링과 휴리스틱 삼브리드 검색(tribrid search) 전략을 결합한 효과적인 특징 선택 방법을 제안한다. 제안된 방법은 특징 간 상호작용을 고려하며, 검색 과정에서 특징 순위 정보를 활용한다. 또한 선택된 특징의 개수와 질을 모두 평가하는 HDLSS용 새로운 성능 지표를 제안한다. 벤치마크 데이터셋을 기존 방법들과 비교한 결과, 제안된 방법은 선택된 특징의 평균 개수를 37.8에서 5.5로 감소시켰고, 선택된 특징에 기반한 예측 모델의 성능은 0.855에서 0.927로 향상시켰다.
결론: 제안된 방법은 소수의 중요한 특징을 효과적으로 선택하며 높은 예측 성능을 달성한다.
https://doi.org/10.1186/s12859-024-06017-9
Feature selection
Computer science
Benchmark (surveying)
Feature (linguistics)
Heuristic
Metric (unit)
Data mining
Selection (genetic algorithm)
Machine learning
Sample size determination
3
article
|
인용수 26
·
2023Machine learning-based predictive model for prevention of metabolic syndrome
Hyun-Seok Shin, Simon Shim, Sejong Oh
IF 2.9 (2023)
PLoS ONE
대사증후군(MetS)은 비만, 고혈압, 고혈당, 이상지질혈증으로 인해 발생하는 만성질환이며, 심혈관질환 또는 제2형 당뇨병으로 이어질 수 있다. 따라서 대사증후군을 조기에 발견하고 예방하는 것은 매우 중요하다. 개인은 일상생활에서 자신의 건강 상태를 쉽게 모니터링할 수 있다면 대사증후군을 조기에 발견하고 이를 효과적으로 관리할 수 있다. 본 연구에서는 비침습적 정보만을 활용하여 대사증후군 예측 모형을 개발함으로써 실제 환경에서의 적용 가능성을 높이고자 하였다. 모형의 구성에서는 혈액검사가 필요한 세 가지 특성, 즉 중성지방, 혈당, HDL 콜레스테롤에 해당하는 특성을 의도적으로 제외하였다. 우리는 대규모 한국 건강검진 데이터셋(n = 70,370; 대사증후군 유병률 = 13.6%)을 사용하여 예측 모형을 개발하였다. 유의미한 특성을 도출하기 위해 허리둘레, 수축기 및 이완기 혈압, 성별의 네 가지 기본 정보로부터 3개의 새로운 합성 특성을 개발하였다. 여러 분류 알고리즘을 시험한 결과, 의사결정나무 모형이 대사증후군의 실용적 예측에 가장 적절함을 확인하였다. 제안된 모형은 AUC 0.889, 재현율 0.855, 특이도 0.773의 양호한 성능을 보였다. 모형은 단지 네 가지 기본 특성만을 사용하므로 단순성과 높은 해석 가능성을 갖는다. 또한 예측확률에 대해 보정(calibration)을 수행하고 모형을 보정하였다. 따라서 제안된 모형은 대사증후군의 진단 및 위험 예측 결과를 제공할 수 있다. 아울러 개인이 대사증후군 여부를 쉽게 판단할 수 있도록 대사증후군 위험 지도를 제안하였다.
https://doi.org/10.1371/journal.pone.0286635
Computer science
Metabolic syndrome
Medicine
Machine learning
Bioinformatics
Computational biology
Artificial intelligence
Biology
Internal medicine
Obesity
4
article
|
인용수 47
·
2022Predictive case-based feature importance and interaction
Sejong Oh
IF 8.1 (2022)
Information Sciences
설명가능한 인공지능 또는 해석 가능한 기계학습에서 특성 중요도와 상호작용은 주요 쟁점 중 하나이다. 특성 중요도와 상호작용을 측정하기 위해 H-통계량 및 부분의존성(partial dependency)과 같은 여러 방법들이 제안되어 왔다. 그러나 중요도와 상호작용의 실질적 함의를 이해하기는 어렵다. 본 논문에서는 특성 중요도와 상호작용을 측정하기 위한 새로운 방법을 제안한다. 분류 모델의 경우, 예측 모델에서 올바르게 예측된 사례를 관찰하고 그 사례들의 특성에 따라 군집화하였다. 군집 정보로부터 특성 중요도와 상호작용을 도출하는 방법을 제안하였다. 회귀 모델의 경우, 예측 오차의 크기 변화에 따라 사례들을 군집화하였다. 제안된 방법은 특성 중요도와 상호작용에 대해 동일한 타당한 근거를 제공한다. 또한 특성 중요도를 특성의 파워(feature power)와 특성 상호작용(feature interactions)으로 분해하는 것을 지원한다. 제안된 방법을 구현하기 위해 특성 상호작용 그래프를 포함한 세 가지 시각화 도구가 구현되었다. 제안된 연구를 통해 예측 모델의 작동 메커니즘을 보다 잘 이해할 수 있다.
https://doi.org/10.1016/j.ins.2022.02.003
Feature (linguistics)
Computer science
Artificial intelligence
Machine learning
Visualization
Statistic
Dependency (UML)
Graph
Data mining
Pattern recognition (psychology)
5
article
|
인용수 2
·
2022Development of the Integrated Glaucoma Risk Index
Sejong Oh, Kyong Jin Cho, Seong-Jae Kim
IF 3.6 (2022)
Diagnostics
다양한 기계학습 기법들이 녹내장을 진단하기 위해 제안되어 왔다. 이들은 대상자를 ‘정상’ 또는 ‘녹내장 양성’으로 분류할 수는 있으나, 후자의 중증도를 결정할 수는 없다. 이를 보완하기 위해 연구자들은 녹내장 위험에 대한 통계적 지표를 제안해 왔다. 그러나 이러한 지표들은 단일 검사 지표에 기초하여 있으며, 녹내장 진행의 전체 중증도를 반영하지 못한다. 본 연구에서는 시야(VF) 검사, 빛간섭단층촬영(OCT), 안압(IOP) 검사를 기반으로 통합 녹내장 위험 지표(I-GRI)를 제안한다. 우리는 기계학습 기법을 사용하여 검사 데이터에서 중요한 특징을 추출하고, 이를 수학적 방정식을 통해 하나의 지표로 통합하였다. 제안된 지표는 0과 1 사이의 값을 산출하며, 위험 지표 값이 높을수록 녹내장의 위험/중증도가 더 큰 것을 의미한다. 검사 사례를 이용한 타당성(sanity) 테스트에서 I-GRI는 녹내장 및 정상 사례 모두에서 균형 잡힌 분포를 보였다. I-GRI를 사용하여 녹내장 및 정상 사례를 분류한 결과, 오분류율은 0.07(7%)이었다. 제안된 지표는 녹내장 진단과 그 진행의 탐지에 유용하다.
https://doi.org/10.3390/diagnostics12030734
Glaucoma
Intraocular pressure
Medicine
Optical coherence tomography
Ophthalmology
Visual field
Index (typography)
Optometry
Computer science