タイトル：『国語研日本語ウェブコーパス』とその検索系『梵天』

浅原正幸

학술발표 - 제8발표장 : 일본어학ㆍ일본어교육 기획 초청발표

タイトル：『国語研日本語ウェブコーパス』とその検索系『梵天』

원문정보

Title : `NINJAL Web Japanese Corpus’ and Its Search System `BonTen’

浅原正幸

한국일본학회 한국일본학회 학술대회 한국일본학회 (KAJA) 제96회 국제학술대회 2018.02 pp.176-182

피인용수 : 0건 (자료제공 : 네이버학술정보)

초록

영어

The National Institute for Japanese Language and Linguistics, Japan (NINJAL) compiled a web corpus for linguistic research comprising 25 billion words. The project is divided into four parts: page collection, linguistic analysis, development of the corpus concordance system, and preservation. This article presents a corpus concordance system named `BonTen', which enables a ten-billion-scaled corpus to be queried by string, a sequence of morphological information or a subtree of the syntactic dependency structure.

일본어

国立国語研究所は言語研究に資する258億語規模のウェブコーパス『国語研ウェブコーパス』を構築した．コーパスの構築は，ページ収集・言語解析・保存・検索系の構築の4種類の部分工程からなる．本発表では，『国語研ウェブコーパス』を概説するとともに，その検索系である『梵天』の機能について紹介する．この検索系は100億語規模のテキストコーパスを文字列のみならず，形態素列・係り受け部分木に基づく問い合わせが可能である．

概要：
Abstract:
1. はじめに
2. 『国語研日本語ウェブコーパス』(NWJC)
3. 検索系『梵天』の機能
  3-1. 文字列検索
  3-2. 品詞列検索
  3-3. 係り受け検索
  3-4. 検索結果表示
  3-5. ダウンロード機能
  3-6. 検索履歴機能
4. おわりに ―まとめと今後の展開
[謝辞]

저자정보

浅原正幸 Masayuki ASAHARA. 人間文化研究機構国立国語研究所コーパス開発センター准教授

참고문헌

자료제공 : 네이버학술정보

함께 이용한 논문

※ 기관로그인 시 무료 이용이 가능합니다.

4,000원

0개의 논문이 장바구니에 담겼습니다.

earticle

タイトル：『国語研日本語ウェブコーパス』とその検索系『梵天』

원문정보

초록

목차

저자정보

참고문헌

함께 이용한 논문