주요 논문
5
*2026년 기준 최근 6년 이내 논문에 한해 Impact Factor가 표기됩니다.
1
Article
|
인용수 1
·
2024Variable selection and prediction performance of penalized two-part regression with community-based crime data application
Seong‐Tae Kim, Man Sik Park
IF 0.6 (2024)
Communications for Statistical Applications and Methods
반연속(semi-continuous) 자료는 0에서의 점확률 질량과 양의 값에 대한 연속 분포가 혼합된 형태로 특징지어진다. 이러한 유형의 자료는 흔히 2-부분(two-part) 모형으로 모델링되며, 첫 번째 부분은 이분형 결과(0 또는 양의 값)의 확률을 모형화하고, 두 번째 부분은 양의 값의 분포를 모형화한다. 2-부분 모형의 인기가 있음에도 불구하고, 특히 고차원 자료에서 이 모형에 대한 변수 선택은 충분히 다루어지지 않았다. 본 연구의 목적은 2-부분 모형에서 패널화된 회귀(penalized regression) 방법의 변수 선택 및 예측 성능을 조사하는 것이다. 시뮬레이션 연구를 통해 2-부분 모형에서 선택된 기법들의 성능을 평가하였다. 본 연구의 결과는 LASSO와 ENET이 SCAD와 MCP보다 더 많은 예측변수를 모형에 선택하는 경향이 있음을 보여준다. 그 결과, β-특이성(β-specificity)에서는 MCP와 SCAD가 LASSO와 ENET보다 우수하였고, 평균제곱오차(mean squared error) 측면에서는 LASSO와 ENET이 MCP와 SCAD보다 더 나은 성능을 보였다. 지역사회 기반 자료를 이용하여 범죄 발생 건수를 예측할 때 패널화된 회귀 방법을 적용한 경우에도 유사한 결과를 확인하였다.
https://doi.org/10.29220/csam.2024.31.4.441
Lasso (programming language)
Feature selection
Scad
Statistics
Mathematics
Regression analysis
Elastic net regularization
Regression
Model selection
Logistic regression
2
Article
|
·
인용수 0
·
2024Spatial Neighborhood Order Determination for Gaussian Markov Random Fields
The Korean Data Analysis Society, Jennifer A. Hoeting, Man Sik Park
The Korean Data Analysis Society
https://doi.org/10.37727/jkdas.2024.26.6.1671
Random field
Statistical physics
Markov chain
Gaussian
Gaussian random field
Order (exchange)
Mathematics
Computer science
Gaussian process
Statistics
3
Article
|
·
인용수 0
·
2021Clustering County-wise COVID-19 Dynamics in North Carolina, USA
Seong‐Tae Kim, Man Sik Park
The Korean Data Analysis Society
COVID-19 팬데믹은 미국에서 전례 없는 영향과 함께 막대한 수의 확진자와 사망자를 초래하였다. 본 연구의 목적은 COVID-19 데이터를 이용하여 노스캐롤라이나의 카운티들 사이에 숨은 군집이 존재하는지 확인하는 것이다. 개별 주에서는 COVID-19 팬데믹에 대처하기 위한 자체 정책을 시행하므로, 본 연구는 단일 주인 노스캐롤라이나로 한정하였다. 우리는 두 가지 군집화 기법인 동적 시간 왜곡(dynamic time warping)과 딥러닝 오토인코더(deep learning autoencoder)를 통합하였다. 본 연구는 Johns Hopkins University Center for Systems Science and Engineering의 COVID-19 Visual Dashboard를 위한 데이터 저장소인 GitHub COVID-19 Data Set의 노스캐롤라이나 카운티별 COVID-19 데이터를 사용하였다. 이 저장소에서 2020년 3월 3일부터 2020년 9월 19일까지의 COVID-19 일별 확진자 수와 사망자 수를 선택하였다. 이러한 군집화 기법들은 COVID-19 감염과 치명률(fatality) 자료 모두에서 세 개의 대도시권을 나머지 지역과 구분하는 유사한 계층적 군집을 확인하였으며, 이는 인구 규모 및 노인 인구 비율과 같은 인구통계학적 변수들과 유의하게 상관된다. 본 연구의 결과는 COVID-19 유행에서 인구 밀도와 연결성의 중요성을 시사한다.
https://doi.org/10.37727/jkdas.2021.23.6.2535
Pandemic
Geography
Coronavirus disease 2019 (COVID-19)
Cluster analysis
Population
Demography
Cluster (spacecraft)
Cartography
Computer science
Medicine
4
Article
|
인용수 6
·
2020Analysis of the Railway Accident-Related Damages in South Korea
Man Sik Park, Jin Ki Eom, Jungsoon Choi, Tae‐Young Heo
IF 2.679 (2020)
Applied Sciences
철도 사고는 대규모 대중교통 시스템으로 인해 사고 1건당 부상자와 사망자가 다수 발생하는 양상을 특징으로 하는 중대한 문제이다. 본 연구는 영(0)이 과잉된 포아송 회귀모형(일명 ZIP 모형)과 영(0)이 과잉된 음이항 회귀모형(ZINB 모형)을 양의 정(非負)수 계수 측정치에 적용하고, 영(0)이 과잉된 감마 회귀모형(ZIG 모형)과 영(0)이 과잉된 로그정규 회귀모형(ZILN 모형)을 반연속형 측정치에 적용하는 이원(두 부분) 모형(two-part models, TPMs)을 통해 철도 사고로 인한 피해를 평가하기 위한 새로운 접근법을 제안한다. 이 모형들은 2008년부터 2016년까지의 기간 동안, 열차 지연 시간, 지연된 열차 수, 사고 건수 응답을 고려하는 비용과 같은 사고 피해를 고려하여 한국철도에서 발생한 철도 사고를 평가하는 데 사용되었다. 산출된 결과로부터, 인적 요인, 고속철도 시스템 또는 Korea Train Express(KTX), 그리고 사상자 수가 주요 비용 증가 요인임을 확인하였다. 지연된 열차 수와 지연 시간의 규모는 비용이 발생할 확률과 비용의 규모 모두를 증가시키는 경향이 있다. 보다 나은 평가를 위해서는 철도 사고 데이터에 영(0)의 반복 발생이 적고 정확한 정보가 포함되어야 한다.
https://doi.org/10.3390/app10248769
Poisson regression
Negative binomial distribution
Damages
Train
Regression analysis
Accident (philosophy)
Transport engineering
Statistics
Poisson distribution
Traffic accident
5
Article
|
·
인용수 0
·
2020주기도의 상관성을 이용한 시계열자료의 군집분석
Suhyun Kwon, Man Sik Park
http://dspace.kci.go.kr/handle/kci/1444228?show=full
Computer science