효과적인 분석은 데이터 분석 과학의 핵심이다. 데이터 분석과 과학 분야에서는 상당한 발전이 이루어졌다. 그러나 기존의 널리 사용되는 하위집단(서브그룹) 식별 모델들—예를 들어 회귀 트리—이 일부 경우에서 효과적이지 않기 때문에, 추가 연구와 더 많은 연구가 필요하다는 합리성과 타당성은 여전히 존재한다. 본 학위논문은 이러한 경우를 해결하고 더 나은 하위집단 식별 모델을 고안하기 위한 진지한 시도이다. 회귀 트리 모델은 사회과학, 교육, 헬스케어 정보학과 같은 다양한 분야에서 하위집단 식별을 위해 널리 사용되어 왔다. 그러나 회귀 트리를 직접 적용하는 방식은 특정한 요구를 충족시키지 못할 수 있으며, 실제로 존재하는 하위집단을 놓치거나 오도하는 하위집단을 식별할 수 있는데, 이는 현장에서 마주치는 까다로운 상황 때문이다. 본 학위논문은 하위집단 식별을 위해 회귀 트리를 수정하고 확장함으로써, 아직 충분히 탐구되지 않은 상황들—i) 회귀가 아니라 상관관계가 관심 대상인 경우를 위한 상관 트리(correlation trees) 개발, ii) 이상치(outlier) 문제를 다루기 위한 강건(robust) 로지스틱 회귀 트리 개발, iii) 불균형 클래스 데이터의 모델링을 위해 일반화 극값 회귀 트리(generalized extreme value regression trees)와 Firth의 로지스틱 회귀 트리(Firth's logistic regression trees)의 잠재력 탐색—을 포함한 일부 미개척 상황을 해결하는 데 초점을 둔다. 본 연구는 이질적 하위집단을 식별하여 다양한 분야와 실제에서의 도전 과제를 극복하기 위해 고급 통계 모델링과 머신러닝 접근의 상호작용을 다루는 학제간(interdisciplinary) 연구이다. 제안된 모델은 하위집단 식별을 위한 구체적인 통찰, 이론, 탐색적 도구를 제공한다. 본 연구는 하위집단 분석이 주요 관심사인 개인맞춤 의학(personalized medicine)과 최적의 심리적 중재(optimal psychological interventions) 등 다양한 분야에 널리 적용될 것으로 기대된다. 본 연구의 잠재적 영향은 학계, 산업, 그리고 사회 전반을 대상으로 한다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.