earticle

논문검색

<경영컨설팅 사례⋅방법론>

통계적 단순모형과 머신러닝·딥러닝 기반 복잡모형의 방법론 우수성 비교 : 의료 데이터 분석 사례

원문정보

Comparative Methodological Superiority of Statistical Simple Models and Machine Learning·Deep Learning–Based Complex Models : Evidence From the Medical Data Analysis

양오석

피인용수 : 0(자료제공 : 네이버학술정보)

초록

영어

This study compared the methodological superiority of simple models and complex models in medical data analysis. For an empirical analysis to compare the superiority of the two model classes, we used the Pima Indians Diabetes dataset, treated zeros as missing, performed median imputation and standardization, split the data 70:30, and trained/evaluated logistic regression (simple), random forest, and multilayer perceptron (MLP) under an identical preprocessing pipeline. For performance evaluation of the two model classes, we applied threshold-dependent metrics (accuracy, sensitivity, precision, specificity, F1, balanced accuracy, MCC) and threshold-independent and calibration metrics (ROC-AUC, PR-AUC, Brier, calibration intercept/slope, Hosmer–Lemeshow, clinical net benefit (DCA)). In the empirical results, logistic regression was overall the most robust, with accuracy 0.7662, sensitivity 0.7160, F1 0.6824, balanced accuracy 0.7547, and MCC 0.4995, and also achieved the highest ROC-AUC of 0.8365. By contrast, random forest showed superior rule-in performance with specificity 0.8733 and PPV 0.6885, and was close to an ideal level in calibration quality, with Brier 0.1594, calibration intercept 0.1356, slope 0.9914, and HL p=0.7606. The MLP was relatively inferior under the same conditions. Meanwhile, in the DCA dimension, the gaps between models were not large across the range, but the winner changed with the choice of threshold (0.10: random forest; 0.20–0.30: logistic regression). Therefore, in practical application, it is reasonable to first specify the target pt and the FN/FP cost structure, and then choose the model–cutoff combination that yields the largest net benefit within that range. In sum, the methodological superiority of a given model is not absolute but relative, and selection should depend on the analytic objective. Specifically, when the goal is screening (minimizing missed positives), logistic regression is appropriate, whereas for rule-in (minimizing false positives) or probability-based decision making, random forest with superior calibration is suitable. The optimal choice of analysis model should be made together with DCA that reflects prevalence, FN/FP costs, and the threshold probability.

한국어

본 연구는 의료 데이터 분석에서 단순모형과 복잡모형의 방법론적 우수성을 비교하였다. 두 모형의 우수성 비교를 위한 실증분석을 위해 피 마 인디언 당뇨(Pima Indians Diabetes) 자료를 사용해 0값을 결측으로 처리하고 중앙값 대치·표준화를 거친 뒤 70:30 분할 및 동일 전처리 파 이프라인으로 로지스틱 회귀(단순), 랜덤포레스트, 다층퍼셉트론(MLP)을 학습·평가하였다. 두 모형의 성능평가를 위해서는 임계값 의존 지표 (정확도, 민감도, 특이도, 정밀도(PPV), 음성예측도, 조화평균(F1), 균형정확도, 매튜스 상관계수(MCC))와 임계값 무관·보정 지표(ROC-AUC, PR-AUC, Brier(↓), 보정 절편/기울기, Hosmer-Lemeshow(HL), 임상 순이득(DCA))를 적용하였다. 실증분석 결과, 로지스틱 회귀는 정확도 0.7662, 민감도 0.7160, F1 0.6824, 균형정확도 0.7547, MCC 0.4995로 전반적으로 가장 견조했으며 ROC-AUC 역시 0.8365로 최고였다. 반면 랜덤포레스트는 특이도 0.8733과 PPV 0.6885로 확증 성능이 우수했고, 보정 품질에서도 Brier 0.1594, 보정 절편 0.1356, 기울기 0.9914, HL p=0.7606으로 이상적 수준에 근접했다. 다층퍼셉트론은 동일 조건에서 상대적으로 열세를 보였다. 한편 DCA 차원에서는 전 구간 공통으로 모형 간 격차는 크지 않되, 임계값 선택에 따라 승자가 바뀌었다(0.10: 랜덤포레스트, 0.20~0.30: 로지스틱 회귀). 따라서 실제 적용 시 목표 pt 와 FN/FP 비용구조를 먼저 정하고, 그 범위에서 순이득이 가장 큰 모형-컷오프 조합을 선택하는 것이 합리적이다. 종합하자면, 특정 모형의 방 법론적 우수성은 절대적이지 않고 상대적이며, 분석목적에 따라 선택이 필요하다. 구체적으로 선별(미탐 최소화)이 목표일 때는 로지스틱 회 귀가 적합하며, 확증(위양성 최소화)이나 확률 기반 의사결정에는 보정이 우수한 랜덤포레스트가 적합하다. 따라서 분석모형의 최적 선택은 유병률·FN/FP 비용·임계확률을 반영한 DCA와 함께 이뤄져야 한다.

목차

요약
I. 서론
II. 이론적 배경
1. 단순모형과 복잡모형
2. 성능평가 지표
III. 연구 방법론
1. 분석 절차
2. 데이터 수집
3. 변수 측정
IV. 분석결과
1. 자료 검증
2. 예측모델 성능 비교
3. 강건성 검증
V. 결론
1. 시사점
2. 한계점 및 제언
참고문헌
Abstract

저자정보

  • 양오석 Yang, Oh-Suk. 강원대학교 경영회계학부 교수

참고문헌

자료제공 : 네이버학술정보

    함께 이용한 논문

      ※ 기관로그인 시 무료 이용이 가능합니다.

      • 4,600원

      0개의 논문이 장바구니에 담겼습니다.