원문정보
Analysis on English Vocabulary Appearance Pattern in Korean CSAT
초록
영어
A text-mining-based word class categorization method and LSTM-based vocabulary pattern prediction method are introduced in this paper. A preprocessing method based on simple text appearance frequency analysis is first described. This method was developed as a data screening tool but showed 4.35 times higher prediction accuracy compared to Word Master book. An LSTM deep learning method is also suggested for vocabulary appearance pattern prediction method. AI performs a regression with various size of data window of previous exams to predict the probabilities of word appearance in the next exam. Predicted values of AI over various data windows are processed into a single score as a weighted sum, which we call an "AI-Score", which represents the probability of word appearance in next year's exam. Suggested method showed 100% accuracy at the range 100-score area and showed only 1.7% error of prediction in the section where the scores were over 60 points.
한국어
텍스트 마이닝 기법 기반의 어휘 분류 기법과 LSTM을 활용한 어휘 출현 패턴 예측 방법을 소개한다. 단순한 텍스트의 등장 빈도를 기반으로 한 프리프로세싱 기법을 제안하며, 이 기법으로 제작된 어휘 스크리닝 기술은 시중의 베스트셀러 수능 어휘 교재인 워드 마스터 대비 2023년도 수능 시험 적중률이 4.35배 더 높았다. LSTM 딥러닝 기법을 활용한 인공지능 기술도 함께 제안하며, 이 기법 은 수능 시험에서 특정 어휘가 어떤 패턴으로 등장하는지 분석하고 이를 토대로 다음 수능에 출제될 어휘의 목록과 그 등장확률을 예측할 수 있다. AI의 예측값은 여러 크기의 데이터 윈도우를 바탕으로 학습된 추론값을 노멀라이즈한 뒤 가중합 연산하여 구한 것 이며, 저자들은 이 값을 AI-Score라고 부른다. AI-score는 특정 단어가 다음 수능 시험에서 등장할 확률을 의미하며, 논문에서 제안 하는 방법론이 100점으로 분류한 단어들은 2023수능에서 100% 출제되었다. AI-Score가 60점 이상인 영역에서는 불과 1.7%수준의 오차로 수능에 출제될 단어들의 등장 확률을 예측하는 데 성공했다.
목차
ABSTRACT
I. Introduction
II. Related Works
1. Patterns of Exams
2. Natural Language Processing
III. Method
1. Data
2. Preprocessing
3. Frequency Analysis
4. Word Screening by Experts
5. Neural Network Architecture
6. Data Windowing
7. Training
8. Normalization of Regression Results
IV. Result
1. AI Prediction Values
2. Prediction of 2023 K-CSAT Exam
3. AI Prediction Accuracy
V. Discussion
VI. Conclusion
Acknowledgement
Supplement Data
References
