원문정보
근대일본어문헌を전자화するための문자집합 -「태양コーパス」をJIS X 0213で표현する-
초록
일본어
本稿は、近代日本語文献を電子化する際に、どの符号化文字集合に依拠するのが現状では最も適切かを検討した。具体的には、JIS X 0208に依拠して作成された「太陽コーパス」を、JIS X 0213及びUnicode 4.0で再符号化処理を行い、カバー率と稼働率を算定した。カバー率は、のべ字数ではJIS X 0208:99.79%、JIS X 0213:99.93%、Unicode 4.0:99.93%となり、異なり字数ではJIS X 0208:79.58%、JIS X 0213:92.02%、Unicode 4.0:98.49%となり、約6,800字集合のJIS X 0208よりも約11,000字集合のJIS X 0213、JIS X 0213よりも約70,000字集合のUnicode 4.0と、集合の規模が大きくなればなるほど、カバー率が高くなり、有用な符号化文字集合と言える。一方稼働率は、JIS X 0208:約87%、JIS X 0213:約62%、Unicode 4.0:約11%となり、集合の規模が大きくなればなるほど、集合の中で稼働する文字の割合が低くなり、電子化する際のコストの増大が見込まれる。JIS X 0208は稼働率の面で低コストであるがカバー率の面で不足し、Unicode 4.0はカバー率の面で優れているが稼働率の面でコストが高い。カバー率と稼働率の双方を勘案すると、現状ではJIS X 0213の11,000字集合が、近代日本語文献の電子化に適しているという結論を得た。
목차
2. JIS X 0208とJIS X 0213
3. 「太陽コーパス」の文字処理
4. 「太陽コーパス」のJIS X 0213による符号化
5. 「太陽コーパス」のUnicodeによる符号化
6. おわりに
[參考文獻]
<要旨>