의료 빅데이터 기반 진단·예측용 머신러닝 및 설명가능 AI

Machine Learning for Medical Diagnosis and Explainable AI

연구 내용

현미경 이미지·유전자 마이크로어레이·환자 정보 텍스트 등 의료 데이터에서 분류 성능을 높이고 SHAP 기반 설명을 제공하는 예측 모델을 개발하는 연구

의료 데이터에서 조기 진단과 위험 예측을 목표로 지도학습 모델을 설계합니다. 현미경 기반 백혈구 분류에서는 데이터 전처리와 증강을 결합해 의미 있는 특징을 구성하고, CNN 기반 분류기를 통해 영상 패턴을 학습합니다. 유전자 마이크로어레이 기반 혈액암 분류에서는 Chi2 특징 선택과 SMOTE 계열 재샘플링을 통해 고차원·불균형 문제를 완화하고, 가중 CNN 구조로 분류 성능을 끌어올립니다. 난소암 예측에서는 stacked ensemble과 SHAP 기반 해석 기법을 결합해 예측 결과의 근거를 정리합니다. 약물 관련 리뷰 문장에서는 FastText/ELMo/GloVe 계열 임베딩과 EfficientNetB4/MobileNet 계열 분류기 앙상블을 통합하여 의료 텍스트 분류를 수행합니다.

관련 프로젝트

0건

연구 흐름

초기에는 영상 기반 의료 분류 문제에서 전처리·증강을 통해 특징 구성을 개선하고 CNN 기반 분류 성능을 검증하는 방향으로 연구가 진행됩니다. 이후 데이터 성격이 다른 유전자 마이크로어레이로 확장되며, Chi2 특징 선택과 SMOTE-Tomek 재샘플링을 적용해 학습 안정성을 확보합니다. 난소암 예측 단계에서는 stacked ensemble을 도입해 일반화 성능을 강화하고, SHAP 기반 설명가능 AI로 모델 근거 제시를 추가합니다. 최종적으로 의료 텍스트 데이터로 범위를 넓혀 임베딩 다중화와 분류기 앙상블을 결합하는 확장 연구를 수행합니다.

활용 가능성

활용 가능성은 알앤디써클 특화 AI 에이전트가 생성한 내용으로, 실제 연구 가능 여부는 연구실과의 논의가 필요합니다.

백혈구 유형 분류 보조
유전자 기반 혈액암 위험 예측
난소암 조기 예측 보조
설명가능한 임상 의사결정 지원
의료 이미지 자동 라벨링
불균형 데이터 학습 전략
약물 안전성 텍스트 분류
의료 문서 마이닝 파이프라인
다중 데이터 모달리티 통합 분석
모델 성능과 근거 리포팅