초록 열기/닫기 버튼

고령화와 생활습관 악화로 인해 만성질환의 예방과 관리에 대한 수요가 증대되어왔다. 이에 개인의 미래 만성질환 발병 위험률을 사전에 추정하고 위험요인을 식별하기 위하여 본 연구에서는 대표성 있는 의료빅데이터인 국민건강보험공단 표본 코호트 DB의 건강검진 기록과 진료기록을 활용하여 주요 만성질환과 의료적 사건을 예측하는 모형을 만들었다. 예측모형으로 해석과 활용 측면에서 이점을 가진 벌점 로지스틱 회귀모형을 사용하였으며, 벌점항은 머신러닝 방법론에 입각하여 최적화하였다. 최종적으로 적합된 모형별 예측력을 평가하고 주요 위험요인으로 선정된 변수들을 검토한 뒤, 예측모형의 활용방안에 대해 검토하기 위해 주요 질환 추정 위험률을 기반으로 개인들을 등급화하여 등급별 위험도와 주요 검진지표의 분포를 살펴보았다. 본 연구에서 개발된 위험률 산출 및 등급화 모형이 개인의 위험률 평가, 개인의 주요 위험요인 식별을 통한 보다 비용-효율적인 건강관리 서비스 개발의 토대가 되기를 기대한다.


Demand for the prevention and management of chronic diseases has risen due to ongoing societal aging and prevalent unhealthy lifestyle. To estimate an individual’s risk of chronic disease in advance and to identify major risk factors, this study used health examination records and medical records of the representative medical big data, the NHIS national sample cohort DB, to develop models to predict major chronic diseases and medical events. As a prediction model, a L1 penalized logistic regression model with advantages in terms of interpretation and utilization was used, and the penalty term was tuned based on the machine learning methodology. Finally, after evaluating the fitted models’ performance and reviewing the variables selected as risk factors, to explore the applicability of the models, individuals were graded based on the estimated risks, and distribution of morbidity rate and major health indicator levels by grade were examined. It is expected that the risk calculation and grading model suggested in this study will serve as the basis for the development of more cost-efficient health care services through evaluation of individual risk rates and identification of major risk factors.