Missing-Data Handling Methods for Lifelogs-Based Wellness Index Estimation: Comparative Analysis With Panel Data | 김기훈 교수 연구실 | 부산대학교 산업공학과

|김기훈 교수 연구실

홈

연구 영역

기본 정보

논문·특허

과제

구성원

Article|

인용수 13

·2020

Missing-Data Handling Methods for Lifelogs-Based Wellness Index Estimation: Comparative Analysis With Panel Data

Ki-Hun Kim, Kwang-Jae Kim

IF 2.955 (2020) JMIR Medical Informatics

초록

배경: 라이플로깅 기반 웰니스 지수(Liflogs-based wellness index, LWI)는 건강 행동 라이플로깅(예: 스마트워치를 통해 수집한 일일 보행 걸음 수와 수면 시간)을 바탕으로 웰니스 점수를 계산하기 위한 함수이다. 웰니스 점수는 직관적으로 스마트 웰니스 서비스 이용자에게 건강 행동 전반의 상태를 보여준다. LWI 개발에는 추정(즉, 데이터로 LWI의 계수들을 추정)이 포함된다. 건강 행동 라이플로깅으로 구성된 패널 데이터 세트는 관측되지 않은 변수를 통제함으로써 LWI 추정의 편향을 줄여준다. 그러나 이러한 데이터 세트는 일상생활에서 발생하는 사건(예: 배터리가 방전되면 스마트 기기가 데이터를 수집하지 못하는 경우) 때문에 일반적으로 결측 자료가 발생하며, 이는 LWI 계수에 편향을 유발할 수 있다. 따라서 패널 데이터로 LWI를 추정할 때 결측 자료를 처리하기 위한 적절한 방법의 선택이 편향을 줄이는 데 중요하다. 그러나 이 분야에 대한 연구는 부족하다. 목적: 본 연구는 패널 데이터로 LWI를 추정하기 위한 적절한 결측 자료 처리 방법을 규명하는 것을 목표로 한다. 방법: 리스트별 삭제, 평균 대치, 기대-최대화(expectation maximization) 기반 다중 대치, 예측 평균 매칭(predictive-mean matching) 기반 다중 대치, k-최근접 이웃(k-nearest neighbors) 기반 대치, 저차원 근사(low-rank approximation) 기반 대치를 비교 평가하였다. 이를 위해 존재하는 LWI 개발 사례를 시뮬레이션하여 검토하였다. 4주 동안 41명의 대학생의 건강 행동 라이플로깅으로 구성된 패널 데이터 세트를 결측이 전혀 없는 기준 데이터 세트로 변환하였다. 이후 결측 자료 비율을 1%~80% 범위에서 무작위로 도입하여 200개의 시뮬레이션 데이터 세트를 생성하였다. 각 결측 자료 처리 방법을 시뮬레이션 데이터 세트에 적용하여 완전한 데이터 세트로 변환한 다음, 각 완전한 데이터 세트에 대해 선형 LWI의 계수를 추정하였다. 각 방법의 각 비율에 대해, 추정된 계수 값과 기준 데이터 세트에서 추정된 값의 차이를 비교하여 편향 측정치를 계산하였다. 결과: 결측 자료 비율에 따라 방법의 성과는 다르게 나타났다. 1%~30% 비율에서는 저차원 근사 기반 대치, 예측 평균 매칭 기반 다중 대치, 기대-최대화 기반 다중 대치가 우수하였다. 31%~60% 비율에서는 저차원 근사 기반 대치와 예측 평균 매칭 기반 다중 대치가 가장 좋은 성능을 보였다. 60%를 초과하는 비율에서는 저차원 근사 기반 대치만이 허용 가능한 수준으로 수행하였다. 결론: 저차원 근사 기반 대치는 결측 자료 비율과 무관하게 6가지 데이터 처리 방법 중에서 가장 우수하였다. 이러한 우수성은 검증된 저차원 특성을 지닌 건강 행동 라이플로깅으로 구성된 다른 패널 데이터 세트에도 일반화될 수 있으며, 저차원 근사 기반 대치는 효과적으로 수행하는 것으로 알려져 있다. 본 결과는 패널 데이터로 선형 LWI를 새로 개발하는 경우에서 계수 편향을 줄이기 위한 결측 자료 처리의 방향을 제시할 것이다.

*본 초록은 AI를 통해 원문을 번역한 내용입니다. 정확한 내용은 하기 원문에서 확인해주세요.

키워드

Missing dataImputation (statistics)Computer scienceData setData miningStatisticsArtificial intelligenceMathematicsMachine learning

타입

Article

IF / 인용수

2.955 / 13

원문

https://doi.org/10.2196/20597

게재 연도

2020