원문정보
Title : `NINJAL Web Japanese Corpus’ and Its Search System `BonTen’
초록
영어
The National Institute for Japanese Language and Linguistics, Japan (NINJAL) compiled a web corpus for linguistic research comprising 25 billion words. The project is divided into four parts: page collection, linguistic analysis, development of the corpus concordance system, and preservation. This article presents a corpus concordance system named `BonTen', which enables a ten-billion-scaled corpus to be queried by string, a sequence of morphological information or a subtree of the syntactic dependency structure.
일본어
国立国語研究所は言語研究に資する258億語規模のウェブコーパス『国語研ウェブコーパス』を構築した.コーパスの 構築は,ページ収集・言語解析・保存・検索系の構築の4種類の部分工程からなる.本発表では,『国語研ウェブコーパ ス』を概説するとともに,その検索系である『梵天』の機能について紹介する.この検索系は100億語規模のテキストコー パスを文字列のみならず,形態素列・係り受け部分木に基づく問い合わせが可能である.
목차
Abstract:
1. はじめに
2. 『国語研日本語ウェブコーパス』(NWJC)
3. 検索系『梵天』の機能
3-1. 文字列検索
3-2. 品詞列検索
3-3. 係り受け検索
3-4. 検索結果表示
3-5. ダウンロード機能
3-6. 検索履歴機能
4. おわりに ―まとめと今後の展開
[謝辞]