주관|2023년 6월-2027년 12월
|925,000,000원 바이오 빅데이터 기반 당뇨병 및 합병증 정밀 의료를 위한 AI 플랫폼 및 모델 개발
1차년도에는 국내 5개 대형병원에서 10년 이상 추적된 당뇨병 환자 50만명 이상을 포함한 국내외 임상/오믹스/영상 데이터를 수집하고, 이들을 정제하고 표준화하는 것이 목표임. 이를 위해 임상데이터(minimal common data), 유전체, 전사체, DNA 메틸화, 단백체, 영상데이터, 투약정보 등을 수집하고 표준화할 것임.
- 임상정보, 영상정보, 다중오믹스정보 통합 빅데이터 기반 multi-stage covariate representation learning (RL) 사전학습 AI 모델 아키텍쳐 및 알고리즘 개발: 각 데이터 타입(임상정보, 유전체, 전사체, DNA 메틸화, 조직/혈액단백체, 영상데이터)에 대해서 RL 알고리즘을 개발하여 정보를 추출하고, covariate AI 모델을 통해 embedding vector들 사이의 관계성을 학습할 것임.
- 표준화된 학습용 빅데이터와 구축된 AI 모델의 활용 및 공개를 위한 DB 플랫폼 벤치마킹: 사용자 친화적 UI/UX 웹기반 데이터 분석 가능 DB에 대한 벤치마킹 플랫폼을 선정하고, 웹기반 DB 플랫폼 서치를 통해 합당한 DB 스키마, exploration, 시각화 툴, 분류 툴 등을 선정할 것임.
2차년도에는 1차년도에 수집된 당뇨병 및 합병증 관련 임상정보, 영상정보, 다중오믹스 정보를 정리, 정제, 분석하여 AI 학습용 데이터를 구축하는 것을 목표로 함.
- 데이터 매트릭스 구축: 각 당뇨병 및 합병증 관련 데이터를 각 타입별 (표준화된 임상데이터, 유전체, 전사체, DNA 메틸화, 조직/혈액단백체, 영상데이터 등)로 정리하고 매트릭스 형태로 정규화함.
- Multi-stage covariate RL AI 모델 구축. 개별 RL 모델과 Covariate AI 모델을 구축: Covariate AI 모델은 임상정보, 유전체, 전사체, DNA 메틸화, 단백체, 영상 데이터를 매핑하고, stage 1에서 사용한 RL 모델의 embedding vector들 사이의 관계성을 학습시킴. 이후 covariate AI 모델은 반복 학습을 통해 수렴할 때까지 재학습할 것임.
- UI/UX 친화적 웹기반 DB 플랫폼 구축: 표준화된 학습용 데이터와 AI 모델을 활용하기 위한 사용자 친화적인 DB 플랫폼을 개발할 것임. 표준화된 학습용 데이터인 임상정보, 영상정보, 다중오믹스정보, 매칭ID 등의 변수를 포함한 DB 스키마를 구축하고, exploration, 시각화, 분류 등의 툴을 탑재한 UI/UX 기반 웹 DB 시스템을 구현하고자 함.
3차년도에는 사전학습 AI 모델 개선 및 In-Silico 검증을 통한 최적화에 중점을 두고자 함
- 사전학습 AI 모델 in-silico 검증에 사용할 데이터를 수집: 기존 사용되지 않은 병원 기반 및 공공 데이터베이스의 임상, 유전체, 전사체, 단백질 및 영상 데이터를 수집하여, 사전학습 covariate AI 모델이 캡처한 데이터 간 주요 관계성과 알려진 관계성을 비교분석을 통해 AI 모델 평가하고자 함. 데이터 간의 양적 및 질적 관계를 비교 분석하여, 사전학습 AI 모델의 성능을 평가하고 개선 방향을 결정할 예정임. 기존에 사용되지 않았던 데이터 기반 구축된 RL 모델에서 생성된 합성 인공 데이터 등을 예측하여 overfitting, 정확도 및 robustness 등을 평가하고자 함.
- 알려진 지식과 비교 분석 및 In-silico 검증 결과에 기반한 사전학습 AI 모델 개선 및 고도화: 알려진 양적 및 질적 관계를 바탕으로 covariate AI 모델의 아키텍처 및 알고리즘을 개선하고, 또한, in-silico 검증에서 발견된 overfitting, 정확도 및 robustness 등의 문제를 해결하기 위해, 수집한 임상, 다중오믹스, 영상 데이터를 추가하여 사전학습 AI 모델을 업데이트 함.