원문정보
초록
영어
Various linguistic knowledge resources are required in order that machine can understand diverse variation in natural languages. This paper aims to devise an automatic construction method of linguistic resources by reflecting characteristics of online contents toward continuous expansion. Especially we focused to build NE(Named-Entity) dictionary because the applicability of NEs is very high in linguistic analysis processes. Based on the investigation on Korean Wikipedia, we suggested an efficient construction method of NE dictionary using the syntactic patterns and structural features such as metadatas.
한국어
급변하는 자연언어를 기계가 이해할 수 있도록 하기 위해서는 다양한 언어지식자원(linguistic knowledge resources)의 구축이 필수적으로 수반된다. 본 논문에서는 온라인 콘텐츠의 특성을 활용해 언어지식자원을 자동으로 구축함으로써 지속적으로 확장 가능한 방법을 고안하고자 한다. 특히 언어분석 과정에서 가장 활용도가 높은 개체명 (NE: Named Entity) 사전을 자동으로 구축, 확장하는데 주안점을 둔다. 이를 위해 본 논문에서는 개체명 사전 구축 대상문서로 위키피디아(Wikipedia)를 선정, 그 특성을 파악하기 위해 다양한 통계 분석을 수행하였다. 이에 기반하여 위키피디아 콘텐츠가 갖는 구문적 특성과 구조 정보 등의 메타데이터를 활용하여 개체명 사전을 구축, 확장하는 방 법을 제안한다.
목차
Abstract
1. 서론
2. 위키피디아 콘텐츠 특성 분석
3. 개체명 사전 자동 구축을 위한 위키피디아 콘텐츠 활용
3.1 Inner-info1: 해당 표제어의 설명 문장의 ‘패턴’활용
3.2 Inner-info2: 해당 표제어의 정형화된 ‘구조정보’를 활용하는 방안
3.3 Outer-info: 문서 간의 메타데이터 정보를 활용하는 방법
4. 결론 및 향후 연구 방향
ACKNOWLEDGMENTS
REFERENCES
