반연속(semi-continuous) 자료는 0에서의 점확률 질량과 양의 값에 대한 연속 분포가 혼합된 형태로 특징지어진다. 이러한 유형의 자료는 흔히 2-부분(two-part) 모형으로 모델링되며, 첫 번째 부분은 이분형 결과(0 또는 양의 값)의 확률을 모형화하고, 두 번째 부분은 양의 값의 분포를 모형화한다. 2-부분 모형의 인기가 있음에도 불구하고, 특히 고차원 자료에서 이 모형에 대한 변수 선택은 충분히 다루어지지 않았다. 본 연구의 목적은 2-부분 모형에서 패널화된 회귀(penalized regression) 방법의 변수 선택 및 예측 성능을 조사하는 것이다. 시뮬레이션 연구를 통해 2-부분 모형에서 선택된 기법들의 성능을 평가하였다. 본 연구의 결과는 LASSO와 ENET이 SCAD와 MCP보다 더 많은 예측변수를 모형에 선택하는 경향이 있음을 보여준다. 그 결과, β-특이성(β-specificity)에서는 MCP와 SCAD가 LASSO와 ENET보다 우수하였고, 평균제곱오차(mean squared error) 측면에서는 LASSO와 ENET이 MCP와 SCAD보다 더 나은 성능을 보였다. 지역사회 기반 자료를 이용하여 범죄 발생 건수를 예측할 때 패널화된 회귀 방법을 적용한 경우에도 유사한 결과를 확인하였다.
*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.