초록 열기/닫기 버튼

인공지능 기반 서·논술형 답안 자동채점 프로그램이 충분한 성능을 담보하기 위해서는 인공지능 학습을 위한충분한 서·논술형 답안이 확보되어야 하지만 현실적으로 대규모의 서·논술형 답안을 확보하는 것은 매우 어렵다. 따라서 인공지능 학습용 데이터가 불충분한 상황에서 보다 나은 성능을 담보할 수 있는 채점모델 구축 방안을 모색할필요가 있다. 이에 본 연구에서는 사전에 정의된 채점자질을 활용한 채점모델 구축 방안을 제안하고 이를 상대적으로적은 학습 데이터에서 가장 우수한 성능을 보이는 것으로 알려진 초거대 언어모델인 KoBERT를 기반으로 하는 채점모델과 비교하였다. 약 500개의 대학생 서·논술형 답안 데이터를 활용하여 4개의 채점 영역(구성, 내용, 어법, 표현)별로두 채점모델의 성능을 실증적으로 비교한 결과, 모든 채점 영역에서 채점자질을 활용하여 랜덤포레스트로 구축한채점모델이 KoBERT를 기반으로 구축한 채점모델보다 정확도, 정밀도, 재현율, F1 값에서 모두 우위에 있는 것으로나타났다. 특히 사전에 정의된 채점자질을 이용해 학생들의 답안 점수를 분류 예측하는 방법은 학생들의 점수에대한 설명이 가능하다는 장점이 있어 자동채점이 총합적인 평가에 머무르지 않고 형성 평가의 기능까지 확장될수 있을 것으로 기대된다


In order for developing an AI-based automated scoring program which could sufficiently perform, it is essential to secure sufficient essay data to be used for AI machine learning. Therefore, it is necessary to find a way to build a scoring model that can guarantee better performance in a situation where there is insufficient data for AI machine learning. In this study, a scoring method using predefined scoring features (RandomForest scoring model) was proposed and compared with a scoring method based on the pre-trained language model KoBERT (KoBERT scoring model), which is known to have the best performance with relatively small amount of learning data. In order to test the feasibility of the RandomForest Scoring model, this study empirically compared the performance of the two scoring models for the four scoring areas including organization, content, usage, and expression by utilizing about 500 college students’ essay data. The results of this study show that the RandomForest scoring model with the pre-defined scoring features in all the scoring areas was found to be superior to the KoBERT scoring model in accuracy, precision, recall, and F1-value. In addition, the RandomForest scoring model is expected to have a advantage that it can be used for the formative evaluation because it is able to explain the performance level based on students' scores.