조형준 연구실은 통계학을 기반으로 의사결정나무와 데이터마이닝 방법론을 발전시키는 한편, 유전체·단백질체 등 고차원 바이오데이터와 임상 데이터를 분석하여 질병 예후 예측, 바이오마커 발굴, 메타분석, 정밀의료 응용까지 연결하는 통계적 바이오인포매틱스 융합 연구를 수행하고 있다.
Gamma H2Ax and 53Bp1, the Markers of Dna Double Strand Break are Associated with Developing Adenoma and Adenocarcinoma in Colon
Jeong Ho Kim, Joon Han Jeon, Hye Kang Kim, HyungJun Cho, Dae Young Cheung, Jin Il Kim, Hyun‐Jin Kim, Seong Jin Lee, Hyun Jeong Lee, Se Hyun Cho, Jae Kwang Kim, Soo‐Heon Park
(1) 맞춤형 기계학습을 위한 이항분류 및 차원축소 방법론
본 연구에서는 맞춤형 학습을 위한 이항분류를 위해 수신자 조작특성(ROC) 곡선의 활용을 제안하고 이에 대한 이론적인 토대를 마련하고자 한다. 맞춤형 학습에서 분류집단의 상대적 중요도 및 모형의 성능을 평가하기 위해 서포트벡터머신(SVM)을 활용, ROC곡선의 아래 면적인 AUC를 최적화하기 위한 이항분류 학습론 및 효율적 알고리즘을 개발한다. 또한 효율적인 특성추출을 위한 비모수적 모형무관(model-free) 차원축소 방법에 대해서도 연구한다. 이를 위해 (i) 데이터의 상관구조를 반영한 위계적 변수선택, (ii) 초고차원 자료의 변수선별 및 (iii) 일반화 주기계에 기반한 맞춤형 차원축약 방법에 대해 연구를 진행할 것이다.
(2) 고차원 대용량 범주형 빅데이터 모형의 분석 및 평가 방법론 연구
고차원 데이터를 범주화할 경우 차원의 급격한 증가로 인해 기존의 학습모형의 성능이 저하된다. 이를 위해 K-근방분석 또는 군집분석 등 거리 기반 학습모형에서 범주형 예측변수에 대해 적절한 거리를 정의하고 연속형 예측변수와의 효율적 결합 방법을 통해 예측력과 해석력을 높이는 알고리즘을 연구할 것이다. 나아가 기계학습 모형의 최적화를 위한 효율적 조절모수의 선택법에 대해서도 연구한다. 특히 범주형 및 연속형 예측변수가 혼재하는 혼합형 빅데이터에 대한 커널 및 조절 모수의 선택, 모형의 평가에 대한 연구를 진행하여 모형의 신뢰성 및 알고리즘의 효율성을 도모한다.
(3) 빅데이터 기반 개인맞춤형 정밀의료 수립을 위한 통계적 방법론 연구
본 연구에서는 빅데이터 분석과 효율적 통계학습 모형에 기반한 개인 맞춤형 정밀의료에 대한 통계적 방법론을 연구한다. 맞춤의료 구현을 위한 통계적 과제는 결국 개인 의사결정의 최적화 문제로 귀결되며, 유전체, 진료 및 보험 기록 등의 모든 정보를 포함하는 빅데이터의 효율적 분석이 필요하다. 이를 위해 (i) 개인맞춤형 치료방법(ITR) 및 (ii) 동적 치료체제(DTR) 구현을 위한 통계적 방법론을 연구하고 강화학습 기반 의사결정 알고리즘 개발에 집중한다. 한편, 가계 질병 정보를 활용한 개인별 암발생 위험률 예측을 위해 베이즈 멘델 모형을 연구할 것이며 국민건강보험 맞춤형 DB 분석을 통한 실증 연구도 진행할 것이다.
(1) 맞춤형 기계학습을 위한 이항분류 및 차원축소 방법론
본 연구에서는 맞춤형 학습을 위한 이항분류를 위해 수신자 조작특성(ROC) 곡선의 활용을 제안하고 이에 대한 이론적인 토대를 마련하고자 한다. 맞춤형 학습에서 분류집단의 상대적 중요도 및 모형의 성능을 평가하기 위해 서포트벡터머신(SVM)을 활용, ROC곡선의 아래 면적인 AUC를 최적화하기 위한 이항분류 학습론 및 효율적 알고리즘을 개발한다. 또한 효율적인 특성추출을 위한 비모수적 모형무관(model-free) 차원축소 방법에 대해서도 연구한다. 이를 위해 (i) 데이터의 상관구조를 반영한 위계적 변수선택, (ii) 초고차원 자료의 변수선별 및 (iii) 일반화 주기계에 기반한 맞춤형 차원축약 방법에 대해 연구를 진행할 것이다.
(2) 고차원 대용량 범주형 빅데이터 모형의 분석 및 평가 방법론 연구
고차원 데이터를 범주화할 경우 차원의 급격한 증가로 인해 기존의 학습모형의 성능이 저하된다. 이를 위해 K-근방분석 또는 군집분석 등 거리 기반 학습모형에서 범주형 예측변수에 대해 적절한 거리를 정의하고 연속형 예측변수와의 효율적 결합 방법을 통해 예측력과 해석력을 높이는 알고리즘을 연구할 것이다. 나아가 기계학습 모형의 최적화를 위한 효율적 조절모수의 선택법에 대해서도 연구한다. 특히 범주형 및 연속형 예측변수가 혼재하는 혼합형 빅데이터에 대한 커널 및 조절 모수의 선택, 모형의 평가에 대한 연구를 진행하여 모형의 신뢰성 및 알고리즘의 효율성을 도모한다.
(3) 빅데이터 기반 개인맞춤형 정밀의료 수립을 위한 통계적 방법론 연구
본 연구에서는 빅데이터 분석과 효율적 통계학습 모형에 기반한 개인 맞춤형 정밀의료에 대한 통계적 방법론을 연구한다. 맞춤의료 구현을 위한 통계적 과제는 결국 개인 의사결정의 최적화 문제로 귀결되며, 유전체, 진료 및 보험 기록 등의 모든 정보를 포함하는 빅데이터의 효율적 분석이 필요하다. 이를 위해 (i) 개인맞춤형 치료방법(ITR) 및 (ii) 동적 치료체제(DTR) 구현을 위한 통계적 방법론을 연구하고 강화학습 기반 의사결정 알고리즘 개발에 집중한다. 한편, 가계 질병 정보를 활용한 개인별 암발생 위험률 예측을 위해 베이즈 멘델 모형을 연구할 것이며 국민건강보험 맞춤형 DB 분석을 통한 실증 연구도 진행할 것이다.
본 과제는 지도학습·비지도학습·준지도학습에서 categorical predictor variables를 제대로 쓰는 기법을 개발하여 예측의 정확성과 해석의 용이성을 높이는 연구임.
연구목표는 (1) 비지도학습 (2) 지도학습 (3) 준지도학습 (4) 고차원데용량데이터 통합에서 범주형 예측변수의 효율적 활용 방안 개발에 있음. 핵심내용은 군집분석의 거리 결합 시 likelihood 기반 결합, 의사결정나무에서 범주형 예측변수 처리로 분할 경우의 수 비용 절감, SVM·KNN에 범주형 예측변수 통합 및 차원 축소로 curse of dimensionality 완화, R패키지화 및 공개에 있음. 기대효과는 통계적 학습 성능 저하와 해석 제한을 줄이고 산업·학문 전반의 실사용 가치 증대에 있음.