(1) 맞춤형 기계학습을 위한 이항분류 및 차원축소 방법론
본 연구에서는 맞춤형 학습을 위한 이항분류를 위해 수신자 조작특성(ROC) 곡선의 활용을 제안하고 이에 대한 이론적인 토대를 마련하고자 한다. 맞춤형 학습에서 분류집단의 상대적 중요도 및 모형의 성능을 평가하기 위해 서포트벡터머신(SVM)을 활용, ROC곡선의 아래 면적인 AUC를 최적화하기 위한 이항분류 학습론 및 효율적 알고리즘을 개발한다. 또한 효율적인 특성추출을 위한 비모수적 모형무관(model-free) 차원축소 방법에 대해서도 연구한다. 이를 위해 (i) 데이터의 상관구조를 반영한 위계적 변수선택, (ii) 초고차원 자료의 변수선별 및 (iii) 일반화 주기계에 기반한 맞춤형 차원축약 방법에 대해 연구를 진행할 것이다.
(2) 고차원 대용량 범주형 빅데이터 모형의 분석 및 평가 방법론 연구
고차원 데이터를 범주화할 경우 차원의 급격한 증가로 인해 기존의 학습모형의 성능이 저하된다. 이를 위해 K-근방분석 또는 군집분석 등 거리 기반 학습모형에서 범주형 예측변수에 대해 적절한 거리를 정의하고 연속형 예측변수와의 효율적 결합 방법을 통해 예측력과 해석력을 높이는 알고리즘을 연구할 것이다. 나아가 기계학습 모형의 최적화를 위한 효율적 조절모수의 선택법에 대해서도 연구한다. 특히 범주형 및 연속형 예측변수가 혼재하는 혼합형 빅데이터에 대한 커널 및 조절 모수의 선택, 모형의 평가에 대한 연구를 진행하여 모형의 신뢰성 및 알고리즘의 효율성을 도모한다.
(3) 빅데이터 기반 개인맞춤형 정밀의료 수립을 위한 통계적 방법론 연구
본 연구에서는 빅데이터 분석과 효율적 통계학습 모형에 기반한 개인 맞춤형 정밀의료에 대한 통계적 방법론을 연구한다. 맞춤의료 구현을 위한 통계적 과제는 결국 개인 의사결정의 최적화 문제로 귀결되며, 유전체, 진료 및 보험 기록 등의 모든 정보를 포함하는 빅데이터의 효율적 분석이 필요하다. 이를 위해 (i) 개인맞춤형 치료방법(ITR) 및 (ii) 동적 치료체제(DTR) 구현을 위한 통계적 방법론을 연구하고 강화학습 기반 의사결정 알고리즘 개발에 집중한다. 한편, 가계 질병 정보를 활용한 개인별 암발생 위험률 예측을 위해 베이즈 멘델 모형을 연구할 것이며 국민건강보험 맞춤형 DB 분석을 통한 실증 연구도 진행할 것이다.
(1) 맞춤형 기계학습을 위한 이항분류 및 차원축소 방법론
본 연구에서는 맞춤형 학습을 위한 이항분류를 위해 수신자 조작특성(ROC) 곡선의 활용을 제안하고 이에 대한 이론적인 토대를 마련하고자 한다. 맞춤형 학습에서 분류집단의 상대적 중요도 및 모형의 성능을 평가하기 위해 서포트벡터머신(SVM)을 활용, ROC곡선의 아래 면적인 AUC를 최적화하기 위한 이항분류 학습론 및 효율적 알고리즘을 개발한다. 또한 효율적인 특성추출을 위한 비모수적 모형무관(model-free) 차원축소 방법에 대해서도 연구한다. 이를 위해 (i) 데이터의 상관구조를 반영한 위계적 변수선택, (ii) 초고차원 자료의 변수선별 및 (iii) 일반화 주기계에 기반한 맞춤형 차원축약 방법에 대해 연구를 진행할 것이다.
(2) 고차원 대용량 범주형 빅데이터 모형의 분석 및 평가 방법론 연구
고차원 데이터를 범주화할 경우 차원의 급격한 증가로 인해 기존의 학습모형의 성능이 저하된다. 이를 위해 K-근방분석 또는 군집분석 등 거리 기반 학습모형에서 범주형 예측변수에 대해 적절한 거리를 정의하고 연속형 예측변수와의 효율적 결합 방법을 통해 예측력과 해석력을 높이는 알고리즘을 연구할 것이다. 나아가 기계학습 모형의 최적화를 위한 효율적 조절모수의 선택법에 대해서도 연구한다. 특히 범주형 및 연속형 예측변수가 혼재하는 혼합형 빅데이터에 대한 커널 및 조절 모수의 선택, 모형의 평가에 대한 연구를 진행하여 모형의 신뢰성 및 알고리즘의 효율성을 도모한다.
(3) 빅데이터 기반 개인맞춤형 정밀의료 수립을 위한 통계적 방법론 연구
본 연구에서는 빅데이터 분석과 효율적 통계학습 모형에 기반한 개인 맞춤형 정밀의료에 대한 통계적 방법론을 연구한다. 맞춤의료 구현을 위한 통계적 과제는 결국 개인 의사결정의 최적화 문제로 귀결되며, 유전체, 진료 및 보험 기록 등의 모든 정보를 포함하는 빅데이터의 효율적 분석이 필요하다. 이를 위해 (i) 개인맞춤형 치료방법(ITR) 및 (ii) 동적 치료체제(DTR) 구현을 위한 통계적 방법론을 연구하고 강화학습 기반 의사결정 알고리즘 개발에 집중한다. 한편, 가계 질병 정보를 활용한 개인별 암발생 위험률 예측을 위해 베이즈 멘델 모형을 연구할 것이며 국민건강보험 맞춤형 DB 분석을 통한 실증 연구도 진행할 것이다.
본 과제는 지도학습·비지도학습·준지도학습에서 categorical predictor variables를 제대로 쓰는 기법을 개발하여 예측의 정확성과 해석의 용이성을 높이는 연구임.
연구목표는 (1) 비지도학습 (2) 지도학습 (3) 준지도학습 (4) 고차원데용량데이터 통합에서 범주형 예측변수의 효율적 활용 방안 개발에 있음. 핵심내용은 군집분석의 거리 결합 시 likelihood 기반 결합, 의사결정나무에서 범주형 예측변수 처리로 분할 경우의 수 비용 절감, SVM·KNN에 범주형 예측변수 통합 및 차원 축소로 curse of dimensionality 완화, R패키지화 및 공개에 있음. 기대효과는 통계적 학습 성능 저하와 해석 제한을 줄이고 산업·학문 전반의 실사용 가치 증대에 있음.
본 과제는 데이터 분석에서 자주 등장하는 범주형 예측변수(categorical predictor variables)를 지도학습·비지도학습·준지도학습에 효율적으로 적용해 예측 정확도와 해석 쉬움을 높이는 기법 개발임.
연구 목표는 (1) 비지도학습, (2) 지도학습, (3) 준지도학습, (4) 고차원·대용량데이터에서 범주형 예측변수를 통합하는 합리적 방안 개발임. 핵심 연구 내용은 군집분석에서 우도(likelihood) 기반 결합, 의사결정나무에서 범주형 예측변수의 효율적 분할, SVM의 통합, KNN의 차원 축소 전략, R패키지 구현 및 공공사이트 공개임. 기대효과는 예측 성능 저하와 해석 제한을 줄이고 전 세계 분석가의 활용을 통한 산업 가치 창출임.
본 과제는 데이터 분석에서 범주형 예측변수(categorical predictor variables)를 지도학습·비지도학습·준지도학습에 효율적으로 넣어 예측 정확도와 해석 용이성을 높이는 기법 개발임.
연구 목표는 (1) 비지도학습, (2) 지도학습, (3) 준지도학습, (4) 고차원데용량데이터에서 범주형 예측변수를 통합하는 합리적 방안 확립에 있음. 핵심 연구 내용은 군집분석을 위한 거리결합, 의사결정나무에서 범주형 예측변수 분할 효율화, SVM에 범주형 예측변수 통합, KNN에서 가변수 변환으로 인한 curse of dimensionality 완화 및 차원 축소 전략 개발임. 기대 효과는 변수 역할에 따른 정교한 처리로 예측 성능과 해석 범위가 향상되며, R패키지를 개발해 공개로 실제 산업 활용과 학문 발전 기여가 기대됨.