원문정보
Study of the Performance of Diverse Algorithms for Predicting University Student Dropout
초록
영어
This study recognizes the importance of addressing the issue of college dropout due to the decline in the population of students with higher education and compares the performance of various machine learning algorithms for predicting student dropout. The data used in this study consists of information from 3,435 new students enrolled at H University, with 13 accumulated data features collected during their first semester. Using this data, seven binary classification models—K-Nearest Neighbors (KNN), Logistic Regression, Decision Tree, Random Forest, Gradient Boosting, Support Vector Machine (SVM), and Neural Network—were evaluated in terms of their predictive performance. The experimental results show that the Random Forest model outperformed the other models in terms of prediction accuracy, followed by Decision Tree and SVM. In contrast, Logistic Regression and Gradient Boosting demonstrated relatively lower performance. This research contributes to the selection of the optimal model for predicting college dropout and suggests potential directions for future studies.
한국어
본 논문에서는 학령인구 감소에 따른 대학 중도탈락 문제의 중요성을 인식하고, 중도탈락 학생 예측을 위한 다양한 머신러닝 알고리즘 의 성능을 비교 분석하였다. 데이터의 수집은 H 대학 신입생 3,435명의 데이터를 활용하였으며, 신입생 입학 후 1학기 축적된 데이터 13개를 입력 특성으로 사용하였다. 이 데이터를 이용하여 KNN, Logistic Regression, Decision Tree, Random Forest, Gradient Boosting, SVM, Neural Network 총 7가지 이진 분류 모델을 실제 대학 신입생 데이터를 활용하여 평가하였다. 실험 결과 Random Forest 모델이 가장 우수한 예측 성능을 보였으며, Decision Tree와 SVM이 뒤를 이었다. 반면, Logistic Regression과 Gradient Boosting은 상대적으로 낮은 성능을 나타냈다. 이 연구는 대학 중도탈락 예측을 위한 최적의 모델 선택에 기여하고, 향후 추가 연구 방 향을 제시한다.
목차
ABSTRACT
Ⅰ. 서론
II. 성능비교대상 알고리즘
1. K-Nearest Neighbors
2. Logistic Regression
3. Decision Tree
4. Random Forest
5. Gradient Boosting
6. Support Vector Machine
7. Neural Network
III. 주요 성능 비교지표
1. 혼동 행렬 (Confusion Matrix)
2. 혼동행렬을 기반으로 계산되는 성능지표
IV. 실험결과 및 분석
1. 실험조건 및 알고리즘별 성능지표 결과
2. 각 모델별 성능 분석
V. 결론
참고문헌
