원문정보
초록
영어
With the increasing concern over high dropout rates in massive open online courses (MOOCs), the present study endeavored to develop a machine learning–based time-series prediction model to forecast learner attrition. The model was trained on the 2023 dataset (N=1,601) and validated on the 2024 dataset (N=1,827) through a temporal split design, with the utilization of learning log data from edX. The performance of the model was evaluated using logistic regression and random forest techniques. Exploratory analyses revealed that quiz performance during the mid-to-late stages of the course was the most significant predictor of dropout, and the model effectively detected early signs of attrition even in environments with different data distributions. To visualize the contribution of each variable, SHAP analysis was conducted, confirming that the consistency of quiz completion was the most influential factor in predicting dropout. These results demonstrate the efficacy of implementing an early warning system based on a validated prediction model in real educational settings.
한국어
MOOC의 높은 중도 탈락 문제가 대두됨에 따라서 본 연구는 이를 예측하는 머신러닝 기반의 시간 분할 검증을 적용한 예측모델을 개발하고자 하였다. 이를 위해 edX의 학습 데이터를 사용하여 시간 분할 설계(temporal split design)를 통해 2023년 학습 데이터(N=1,601)로 모델을 훈련하고, 2024년 학습 데이터(N=1,827)로 검증하였다. 모델 평가는 로지스틱 회귀 분석과 랜덤 포레스트 기법을 사용하였다. 탐색적 분석 결과, 학습 중후반기의 퀴즈 수행도 가 가장 중요한 예측 변수로 나타났으며, 데이터 분포가 다른 환경에서도 중도 이탈의 초기 징후를 효과적으로 탐 지하는 것으로 확인되었다. 각 변수의 기여도를 시각화하기 위해 SHAP 분석을 수행한 결과, 퀴즈 응답의 지속성 이 중도 이탈 예측에 가장 중요한 요소로 확인되었다. 이 결과는 검증된 예측 모델을 활용한 조기 경보 시스템이 실제 교육 현장에서 효과적으로 구현될 수 있음을 보여준다.
목차
Abstract
1. 서론
2. 선행연구
2.1. 머신러닝을 활용한 학습 예측모델
2.2. MOOC의 중도 탈락 예측모델
3. 연구방법
3.1. 연구절차
3.2. 데이터 전처리 및 시간 분할 검증
3.3. 예측모델 개발
3.4. 예측모델 분석
4. 연구결과
4.1. 학습데이터의 예측모델 학습 결과
4.2. 검증데이터의 예측 결과 분석
4.3. 예측 결과 및 위험학습자 분석
5. 결론 및 논의
참고문헌
