원문정보
초록
영어
In recent years, a lot of attention is being paid to general-purpose frameworks that show what can be concretely done in using a target language for learners. In 2017, the Common European Framework of Reference for Languages (CEFR) Companion Volume was released. This volume complements the CEFR initially published in 2001, which is widely considered as an international standard for language ability, and introduces a Pre-A1 level. Conversely, there are few studies on CEFR for Japanese language education, and from the past studies, it was noted that there are no Japanese CEFR compliant text corpora. Thus, the present study aims to classify example sentences according to their corresponding Can-Do Statements (CDSs) to reduce efforts in creating a corpus. Support Vector Machine and Random Forest were applied to the classification approach where document types, specialty, sentence length, and kanji ratio have been given as the features of example sentences. The Pre-A1 level has a great difference in difficulty level and constituent language elements from the previous level groups. Therefore, our study seeks to improve the accuracy through binary classification combined with incorporation of the past method of classifying all levels of CDSs at once. Moreover, we also developed a web application that would help attach CDSs efficiently to example sentences and provide example sentence collections corresponding to specific CDSs.
한국어
최근 학습중인 언어를 사용하여 구체적으로 무엇을 할 수 있는지를 나타내는 범용 체계에 큰 관심이 모아지고 있다. 그 중에서도 2001년에 유럽위원회가 발표한 Common European Framework of Reference for Languages (CEFR)는 언어능력의 국제표 준으로 세계적으로 평가가 높다. 2017년에는 그것을 보완하는 CEFR Companion Volume이 공개되어, PreA1 레벨이 추가되는 등 더욱 더 레벨이 세분화되었다. CEFR 를 사용한 연구와 실천 예는 영어를 비롯한 많은 언어에서 이루어지고 있는 반면, 일 본어 교육을 염두에 둔 CEFR연구는 수적으로도 여전히 적으며, 일본어 CEFR준수 텍 스트 코퍼스도 현재까지의 연구 결과 존재하지 않는다. 본 연구에서는, 코퍼스를 작성 할 때 발생하는, 예문에 CEFR의 독해력을 반영하는 Can-Do Statements (CDS)를 부여 하는 노력을 경감하기 위해 자동분류 실장(実装)에 대해 지속적으로 연구하고 있다. 분류 방법에는 Support Vector Machine과 랜덤 포레스트에 의한 지도 학습을 적용하 고, 기계 학습을 위한 예문의 특징량으로써 문서 유형, 전문성, 문장 길이, 한자 비율 4 개를 사용한다. Pre-A1 레벨은 종전 레벨 군과 난이도와 구성언어요소에 큰 차이가 있기 때문에, 모든 레벨의 CDS를 한 번에 분류하는 과거 방식에 비해 2 단계에 따른 CDS 분류에 따른 정확도 향상을 목표로 하였다. 또한, Web 어플리케이션의 개발을 실시하여, 자동 분류 알고리즘을 내부 구현함으로써, 주어진 예문에 대하여 이에 대응 하는CDS를 자동 부여하는 기능과, 특정 CDS를 선택함으로써 이에 해당하는 예문 리 스트를 그 확실성 순으로 제공하는 기능을 제공하고 있다.
목차
1. はじめに
1.1. CEFRとは
1.2. CEFRに関する先行研究
1.3. 本研究の目的
2. 高田ら(2017), 宮崎ら(2018), Myら(2018)による手法
2.1. 特徴量
2.2. CDS分類
3. 本研究における提案手法(2段階によるCDS分類)
3.1. Pre-A1レベルの特徴量の計算法
3.2. CDS分類
4. Webアプリケーション開発
5. 結語
参考文献(Reference)