언어자원 자동 구축을 위한 위키피디아 콘텐츠 활용 방안 연구

류철중; 김용; 윤보현

언어자원 자동 구축을 위한 위키피디아 콘텐츠 활용 방안 연구

원문정보

A Study on Utilization of Wikipedia Contents for Automatic Construction of Linguistic Resources

류철중, 윤보현, 김용

한국디지털정책학회 디지털융복합연구 제13권 제5호 2015.05 pp.187-194 KCI 등재

피인용수 : 0건 (자료제공 : 네이버학술정보)

초록

영어

Various linguistic knowledge resources are required in order that machine can understand diverse variation in natural languages. This paper aims to devise an automatic construction method of linguistic resources by reflecting characteristics of online contents toward continuous expansion. Especially we focused to build NE(Named-Entity) dictionary because the applicability of NEs is very high in linguistic analysis processes. Based on the investigation on Korean Wikipedia, we suggested an efficient construction method of NE dictionary using the syntactic patterns and structural features such as metadatas.

한국어

급변하는 자연언어를 기계가 이해할 수 있도록 하기 위해서는 다양한 언어지식자원(linguistic knowledge resources)의 구축이 필수적으로 수반된다. 본 논문에서는 온라인 콘텐츠의 특성을 활용해 언어지식자원을 자동으로 구축함으로써 지속적으로 확장 가능한 방법을 고안하고자 한다. 특히 언어분석 과정에서 가장 활용도가 높은 개체명 (NE: Named Entity) 사전을 자동으로 구축, 확장하는데 주안점을 둔다. 이를 위해 본 논문에서는 개체명 사전 구축 대상문서로 위키피디아(Wikipedia)를 선정, 그 특성을 파악하기 위해 다양한 통계 분석을 수행하였다. 이에 기반하여 위키피디아 콘텐츠가 갖는 구문적 특성과 구조 정보 등의 메타데이터를 활용하여 개체명 사전을 구축, 확장하는 방 법을 제안한다.

요약
Abstract
1. 서론
2. 위키피디아 콘텐츠 특성 분석
3. 개체명 사전 자동 구축을 위한 위키피디아 콘텐츠 활용
  3.1 Inner-info1: 해당 표제어의 설명 문장의 ‘패턴’활용
  3.2 Inner-info2: 해당 표제어의 정형화된 ‘구조정보’를 활용하는 방안
  3.3 Outer-info: 문서 간의 메타데이터 정보를 활용하는 방법
4. 결론 및 향후 연구 방향
ACKNOWLEDGMENTS
REFERENCES

키워드

저자정보

류철중 Cheol-Jung Yoo. 전북대학교 소프트웨어공학과
김용 Yong Kim. 전북대학교 문헌정보학과
윤보현 Bo-Hyun Yun. 목원대학교 컴퓨터교육학과

참고문헌

자료제공 : 네이버학술정보

함께 이용한 논문

※ 기관로그인 시 무료 이용이 가능합니다.

4,000원

0개의 논문이 장바구니에 담겼습니다.

earticle