earticle

논문검색

近代日本語文献を電子化するための文字集合 -「太陽コーパス」をJIS X 0213で表現する-

원문정보

근대일본어문헌を전자화するための문자집합 -「태양コーパス」をJIS X 0213で표현する-

高田智和

피인용수 : 0(자료제공 : 네이버학술정보)

초록

일본어

本稿は、近代日本語文献を電子化する際に、どの符号化文字集合に依拠するのが現状では最も適切かを検討した。具体的には、JIS X 0208に依拠して作成された「太陽コーパス」を、JIS X 0213及びUnicode 4.0で再符号化処理を行い、カバー率と稼働率を算定した。カバー率は、のべ字数ではJIS X 0208:99.79%、JIS X 0213:99.93%、Unicode 4.0:99.93%となり、異なり字数ではJIS X 0208:79.58%、JIS X 0213:92.02%、Unicode 4.0:98.49%となり、約6,800字集合のJIS X 0208よりも約11,000字集合のJIS X 0213、JIS X 0213よりも約70,000字集合のUnicode 4.0と、集合の規模が大きくなればなるほど、カバー率が高くなり、有用な符号化文字集合と言える。一方稼働率は、JIS X 0208:約87%、JIS X 0213:約62%、Unicode 4.0:約11%となり、集合の規模が大きくなればなるほど、集合の中で稼働する文字の割合が低くなり、電子化する際のコストの増大が見込まれる。JIS X 0208は稼働率の面で低コストであるがカバー率の面で不足し、Unicode 4.0はカバー率の面で優れているが稼働率の面でコストが高い。カバー率と稼働率の双方を勘案すると、現状ではJIS X 0213の11,000字集合が、近代日本語文献の電子化に適しているという結論を得た。

목차

1. はじめに
 2. JIS X 0208とJIS X 0213
 3. 「太陽コーパス」の文字処理
 4. 「太陽コーパス」のJIS X 0213による符号化
 5. 「太陽コーパス」のUnicodeによる符号化
 6. おわりに
 [參考文獻]
 <要旨>

저자정보

  • 高田智和 国立国語研究所 理論・構造研究系 准教授, 日本語学(文字・表記)

참고문헌

자료제공 : 네이버학술정보

    함께 이용한 논문

      ※ 기관로그인 시 무료 이용이 가능합니다.

      • 5,800원

      0개의 논문이 장바구니에 담겼습니다.