초록 열기/닫기 버튼

본 연구는 우리나라 고등학생을 대상으로 시행되었던 NEAT 말하기 채점자를 대상으로 심층면담을 실시하여 채점에 수반된 인지과정, 채점전략, 점수 판단의 근거 등을 심도 있게 파악함으로써 말하기 채점자 훈련에 적용할 수 있는 정보를 얻고자 하였다. 채점자 신뢰도 상위수준의 채점자 여섯 명, 하위수준 채점자 세 명과의 채점 직후 심층면담을 통해 다음과 같은 특징을 파악하였다. 첫째, 우수 채점자들은 말하기 답안 내용을 일부 또는 전체를 받아쓰는 ‘노트하기’ 전략을 사용함으로써 영역별 분석적 채점의 정확도를 높이고자 하였다. 둘째, 우수 채점자들은 채점영역 중 과제완성 점수를 기준으로 타 영역 점수의 상한선을 정하는 소위 ‘골든룰’ 적용을 통해 채점의 일관성을 확보하였다. 반면에 하위수준 채점자들은 비록 이 골든룰을 인지하고 있음에도 불구하고 실제 채점에 제대로 적용하지 못하였다. 셋째, 우수 채점자들은 채점 영역 간 독립 채점과 의존적 채점을 병행하는 반면, 하위수준 채점자들은 영역별 독립 채점을 거의 하지 못하고 전반적인 인상에 근거하여 모든 영역을 서로 의존적으로 판단하였다. 마지막으로, 채점기준이 내재화되지 못한 하위수준 채점자는 임의로 영역별 점수의 범위를 줄여 좁은 점수 범위 안에서 모든 답안에 비슷한 점수를 부여하는 경향을 보였다. 비록 NEAT와 같은 국가수준의 영어 말하기 평가 시행은 중단되었지만 학교단위 영어 말하기 지도와 평가가 정착되기 위해 영어교사를 대상으로 하는 채점자 연수가 활발해지기를 고대하고 본 연구의 주요 결과가 그러한 연수에서 의미있게 활용 될 수 있기를 바란다.


This study aims to explore how experienced English speaking raters score speaking responses in terms of the overall scoring style, strategies for improving scoring consistency, and interpretation and application of scoring rubric for each scoring area. For this purpose, this study conducted retrospective interviews with six experienced speaking raters and three inexperienced speaking raters of NEAT, in order to compare and contrast the two rater groups’ scoring behaviors. The participants were asked to verbally report how they decided the score of each scoring area and what strategies they employed to improve their scoring consistency. The main findings are as follows: First, the experienced raters employed note-taking strategy while they were listening to and scoring each response, in order to make a more accurate decision of the score for each scoring area. Second, the experience raters applied the so-called ‘Golden-Rule’ of NEAT effectively and consistently, while the inexperienced raters were hardly consistent in applying this rule. Third, the experienced raters scored each scoring area independently of the other areas by applying the absolute scoring criteria given for that area without being seriously affected by the overall impression of the response, while the inexperienced raters decided the scores of the five scoring areas interdependently. Lastly, it seems that inexperienced raters apply a narrow range of scale points, that is, give similar scores for most responses if they do not have a clear understanding of the scoring criteria. Based on the results, some suggestions are made for English speaking rater training.