원문정보
Prediction Techniques for Difficulty Level of Hanja Using Multiple Linear Regression
초록
영어
There is a problem with the existing method of selecting the difficulty levels of Hanja characters. Some Hanja characters selected by the existing methods are different from Sino-Korean words used in real life and it is impossible to know how many times the Hanja characters are used. To solve this problem, we measure the difficulty of Hanja characters using the multiple regression analysis with the frequency as the features. Based on the elementary textbooks, FWS and FHU are counted. A questionnaire is written using the two frequencies and stroke together to answer the appropriate timing of learning the Hanja characters and use them as target variables for regression. Use stepwise regression to select the appropriate features and perform multiple linear regression. The R2 score of the model was 0.1105 and the RMSE was 0.1105.
한국어
한자 급수와 같이 기존 한자 난이도 선정 방식에 문제점이 있다. 실생활에서 쓰이는 한글 단어와 차이가 나며 해당 급수가 실제로 얼마나 많이 쓰이는지 알 수가 없다. 이러한 문제를 해결하기 위해 빈도수를 이용하여 다중 회귀 분석을 이용하여 한자 난이도를 측정한다. 초등 교과서를 기반으로 한자활용빈도수와 한글의미빈도수를 집계한다. 두 빈도수와 획수를 함께 사용하여 설문지를 작성하여 해당 한자의 학습 적정 시기를 답변 받아 이를 회귀에서 사용할 타겟 변수로 이용한다. 단계별 회귀분석을 이용하여 적절한 피처를 선택하고 다중 선형 회귀 분석을 한다. 모델의 R2는 0.1105가 나왔으며 RMSE는 0.1105의 결과가 나왔다.
목차
Abstract
Ⅰ. 서론
Ⅱ. 관련연구
Ⅲ. 회귀분석을 이용한 한자 난이도 측정
1. 빅데이터 기반 빈도 추출
2. 한자 기준 빈도 메트릭 테이블 작성
3. 한자 체감 난이도 설문
4. 다중 선형 회귀 모델을 사용한 가충치 계산 및 한자 난이도 예측식 완성
5. 한자별 난이도 계산
6. 학년별 대상 학습 한자 및 단어
Ⅳ. 결론 및 향후 연구
References
