원문정보
Prediction Model of Hypertension for Smartwatch Users Using Machine Learning : Based on Korea National Health and Nutrition Examination Survey
초록
영어
This study developed a model that predicts the prevalence of hypertension using healthrelated data that can be easily measured by smartwatch users under the assumption that smartwatches recently have the potential to support health care in everyday life by supporting self-monitoring of health conditions and personal activities. For this purpose, data corresponding to the health-related data variables provided by the smartwatch were selected from the Korea National Health and Nutrition Examination Survey published annually by the Korea Disease Control and Prevention Agency. Data from 11,469 people from the 2016-2018 Korea National Health and Nutrition Examination Survey were used as analysis data. The target variable included the presence or absence of hypertension, and the independent variables included sex, gender, age, pulse rate in 15 seconds, systolic blood pressure, diastolic blood pressure, fasting blood sugar, body mass index, physical activity (exercise), drinking status, smoking status, and sleep time. First, we divide the entire data set into training data set (70%) and testing data set(30%), and then classify hypertensive diseases using three machine learning classification models (logistic regression, artificial neural network, and support vector machine) in the training data set. We checked how accurately the models made predictions on a given test data set. As a result of calculating the performance evaluation index among the three machine learning classification models, the support vector machine showed the best performance. Next, we examined the importance of independent variables under the support vector machine model. Age was the highest, systolic blood pressure, fasting blood sugar, and body mass index were in the upper range, and drinking status was in the lowest Finally, as age is derived as the most important risk factor for developing hypertension, the importance of variables by age was analyzed for those in their 60s and older. As a result, while there were factors that had the same importance for each age group in the elderly, there were factors that showed differences. Typically, body mass index and fasting blood sugar were the most important factors in all older age groups, and physical activity (exercise) differed by age group. This study is significant in that smartwatch users can predict the prevalence of hypertension with their health-related data by analyzing various factors that can affect hypertension using data from the National Health and Nutrition Survey of large population groups that can represent the Korean population.
한국어
본 연구는 최근 스마트워치가 개인의 건강상태 및 개인 활동에 대한 자가 모니터링을 제공함으로써 건강 관리를 지원할 수 있다는 가정 하에 스마트워치 사용자가 쉽게 측정할 수 있는 건강 관련 데이터를 이용하여 고혈압 의 유병률을 예측하는 모델을 개발하였다. 이를 위해 스마트워치에서 제공하는 건강 관련 기능에 해당하는 데이 터는 질병관리청에서 발간하는 국민건강영양조사에서 선정하였다. 분석자료로 제7기(2016-2018년) 국민건강영 양조사의 11,469명의 자료를 사용하였다. 타겟변수는 고혈압 유병여부, 독립변수는 성별, 연령, 15초간 맥박수, 수축기 혈압, 이완기 혈압, 공복 혈당, 체질량지수, 신체활동(운동)여부, 음주여부, 흡연여부, 수면시간을 포함하 였다. 먼저 전체 데이터 세트를 학습용 데이터 세트(70%)와 시험용 데이터 세트(30%)로 나눈 후 학습용 데이 터 세트에서 세 가지 머신러닝 분류모델(로지스틱 회귀분석, 인공신경망, 서포트 벡터 머신)을 사용하여 고혈압 질환을 분류하고, 모델들이 얼마나 정확하게 예측을 수행하는지 주어진 시험용 데이터 세트에서 확인하였다. 세 가지 머신러닝 분류모델 중 성능 평가 지표를 계산한 결과, 서포트 벡터 머신이 가장 성능이 좋은 것으로 나타났다. 다음으로 서포트 벡터 머신 모델 하에서 독립변수들의 중요도를 살펴보았다. 연령이 가장 높았고, 수축기혈압, 공복혈당, 체질량지수가 상위권에, 음주여부는 상대적으로 중요도가 낮게 나타났다. 마지막으로, 연령이 고혈압 발병의 가장 중요한 위험인자로 도출됨에 따라서 60대 이상을 대상으로 연령별로 변수들의 중요도를 분석하였다. 그 결과 노년층에서도 연령대별로 동일한 중요도를 가지는 요인들이 있는 반면, 차이가 나타나는 요인들이 있었다. 대표적으로 체질량지수와 혈당은 모든 노년층에서 가장 중요한 요인으로 나타났고, 신체활동(운동)여부는 연령대 별로 차이가 있었다. 본 연구는 우리나라 인구 모집단을 대표할 수 있는 대규모 표본집단 대상으로 한 국민건강 영양조사 자료를 이용하여 고혈압의 위험 요인을 분석함으로써 스마트워치 이용자들이 본인의 건강 관련 기능에 해당하는 값을 가지고 고혈압 유병여부를 예측할 수 있다는 점에서 의의가 있다고 할 수 있다.
목차
Ⅰ. 서론
Ⅱ. 선행연구 고찰
1. 고혈압 위험요인 연구
2. 국민건강영양조사 활용 연구
3. 머신러닝 기반 고혈압 관련 연구
Ⅲ. 연구방법
1. 데이터 세트
2. 변수
3. 연구 방법
Ⅳ. 분석 결과
1. 모델링에 적용된 변수들의 통계적 유의성 분석 결과
2. 분류 모델의 성능 평가 결과
3. 변수 중요도
Ⅴ. 논의
Ⅵ. 결론
참고문헌
Abstract
