earticle

논문검색

학술발표 - 제8발표장 : 일본어학ㆍ일본어교육 기획 초청발표

タイトル:『国語研日本語ウェブコーパス』とその検索系『梵天』

원문정보

Title : `NINJAL Web Japanese Corpus’ and Its Search System `BonTen’

浅原正幸

피인용수 : 0(자료제공 : 네이버학술정보)

초록

영어

The National Institute for Japanese Language and Linguistics, Japan (NINJAL) compiled a web corpus for linguistic research comprising 25 billion words. The project is divided into four parts: page collection, linguistic analysis, development of the corpus concordance system, and preservation. This article presents a corpus concordance system named `BonTen', which enables a ten-billion-scaled corpus to be queried by string, a sequence of morphological information or a subtree of the syntactic dependency structure.

일본어

国立国語研究所は言語研究に資する258億語規模のウェブコーパス『国語研ウェブコーパス』を構築した.コーパスの 構築は,ページ収集・言語解析・保存・検索系の構築の4種類の部分工程からなる.本発表では,『国語研ウェブコーパ ス』を概説するとともに,その検索系である『梵天』の機能について紹介する.この検索系は100億語規模のテキストコー パスを文字列のみならず,形態素列・係り受け部分木に基づく問い合わせが可能である.

목차

概要:
 Abstract:
 1. はじめに
 2. 『国語研日本語ウェブコーパス』(NWJC)
 3. 検索系『梵天』の機能
  3-1. 文字列検索
  3-2. 品詞列検索
  3-3. 係り受け検索
  3-4. 検索結果表示
  3-5. ダウンロード機能
  3-6. 検索履歴機能
 4. おわりに ―まとめと今後の展開
 [謝辞]

저자정보

  • 浅原正幸 Masayuki ASAHARA. 人間文化研究機構 国立国語研究所 コーパス開発センター 准教授

참고문헌

자료제공 : 네이버학술정보

    함께 이용한 논문

      ※ 기관로그인 시 무료 이용이 가능합니다.

      • 4,000원

      0개의 논문이 장바구니에 담겼습니다.