earticle

논문검색

기타

다중 회귀 분석을 이용한 한자 난이도 예측 기법 연구

원문정보

Prediction Techniques for Difficulty Level of Hanja Using Multiple Linear Regression

최정환, 노지우, 김순태

피인용수 : 0(자료제공 : 네이버학술정보)

초록

영어

There is a problem with the existing method of selecting the difficulty levels of Hanja characters. Some Hanja characters selected by the existing methods are different from Sino-Korean words used in real life and it is impossible to know how many times the Hanja characters are used. To solve this problem, we measure the difficulty of Hanja characters using the multiple regression analysis with the frequency as the features. Based on the elementary textbooks, FWS and FHU are counted. A questionnaire is written using the two frequencies and stroke together to answer the appropriate timing of learning the Hanja characters and use them as target variables for regression. Use stepwise regression to select the appropriate features and perform multiple linear regression. The R2 score of the model was 0.1105 and the RMSE was 0.1105.

한국어

한자 급수와 같이 기존 한자 난이도 선정 방식에 문제점이 있다. 실생활에서 쓰이는 한글 단어와 차이가 나며 해당 급수가 실제로 얼마나 많이 쓰이는지 알 수가 없다. 이러한 문제를 해결하기 위해 빈도수를 이용하여 다중 회귀 분석을 이용하여 한자 난이도를 측정한다. 초등 교과서를 기반으로 한자활용빈도수와 한글의미빈도수를 집계한다. 두 빈도수와 획수를 함께 사용하여 설문지를 작성하여 해당 한자의 학습 적정 시기를 답변 받아 이를 회귀에서 사용할 타겟 변수로 이용한다. 단계별 회귀분석을 이용하여 적절한 피처를 선택하고 다중 선형 회귀 분석을 한다. 모델의 R2는 0.1105가 나왔으며 RMSE는 0.1105의 결과가 나왔다.

목차

요약
Abstract
Ⅰ. 서론
Ⅱ. 관련연구
Ⅲ. 회귀분석을 이용한 한자 난이도 측정
1. 빅데이터 기반 빈도 추출
2. 한자 기준 빈도 메트릭 테이블 작성
3. 한자 체감 난이도 설문
4. 다중 선형 회귀 모델을 사용한 가충치 계산 및 한자 난이도 예측식 완성
5. 한자별 난이도 계산
6. 학년별 대상 학습 한자 및 단어
Ⅳ. 결론 및 향후 연구
References

저자정보

  • 최정환 Jeongwhan Choi. 정회원, 전북대학교 소프트웨어공학과
  • 노지우 Jiwoo Noh. 정회원, 전북대학교 소프트웨어공학과
  • 김순태 Suntae Kim. 정회원, 전북대학교 소프트웨어공학과

참고문헌

자료제공 : 네이버학술정보

    함께 이용한 논문

      ※ 원문제공기관과의 협약기간이 종료되어 열람이 제한될 수 있습니다.

      0개의 논문이 장바구니에 담겼습니다.