earticle

논문검색

STW를 이용한 웹 문서 장르 분류에 관한 연구

원문정보

A Research for Web Documents Genre Classification using STW

고병규, 오군석, 김판구

피인용수 : 0(자료제공 : 네이버학술정보)

초록

영어

Many researchers have been studied to reveal human natural language to let machine understand its meaning by text based, page rank based or more. Particularly, it has been considered that URL and HTML Tag information in web documents are attracting people’s attention again to analyze huge amount of web document automatically. In this paper, we propose a STW (Semantic Term Weight) approach based on syntactic and linguistic structure of web documents in order to classify what genres are. For the evaluation, we analyzed more than 1,000 documents from 20-Genre-collection corpus for training the documents based on SVM algorithm. Afterwards, we tested KI-04 corpus to evaluate performance of our proposed method. This paper measured their accuracy by classifying them into an experiment using STW and one without using STW. As the results, the proposed STW based approach showed approximately 10.2% which is higher than one without use of STW.

한국어

웹 문서의 지속적인 증가로 인해 텍스트 기반, Page Rank 등의 방법으로 한 연구들이 증가하 고 있다. 특히 웹 문서 내 URL 정보, HTML Tag 정보 등을 활용하는 연구들이 다시 주목을 받고 있 다. 따라서 웹 문서 장르 분류를 위해 앞서 언급한 웹 문서 내 특징 요소들을 바탕으로 본 논문에서는 STW(Semantic Term Weight)를 적용하여 웹 문서 장르 분류하는 연구를 기술한다. 웹 문서 장르 분류에 사용되는 데이터 셋은 학습 문서와 테스트 문서로 구성되고, SVM 알고리즘을 사용하여 웹 문 서 분류 실험을 수행한다. 학습 과정을 위해 20-Genre-collection corpus 내 1,000여개의 문서를 선 정하여 SVM 알고리즘을 통해 학습하였고, 테스트 과정에서 사용된 데이터 셋은 KI-04 corpus를 사 용하였다. 테스트 과정 후 STW를 사용한 실험과 STW를 사용하지 않은 실험으로 분류하여 정확도를 측정하였다. 또한 이를 바탕으로 1,212개의 테스트 문서를 분류하였다. 그 결과 STW를 사용한 실험 이 그렇지 않은 실험 보다 약 10.2% 높은 정확도를 보였다.

목차

요약
Abstract
1. 서론
2. 관련 연구
3. 웹 문서 특징요소 모델링
3.1 특징 요소 정의 및 추출
3.2 Semantic Term Weight 측정 방법
3.3 분류 알고리즘 선정
4. 실험 및 평가
4.1 실험 환경 및 데이터 셋
4.2 웹 문서 장르 선정
4.3 실험 평가
5. 결론
참고문헌

저자정보

  • 고병규 Byeong-Kyu Ko. 조선대학교 컴퓨터공학과 박사과정
  • 오군석 Kun-Seok Oh. 광주보건대학교 병원전산관리과 부교수
  • 김판구 Pan-Koo Kim. 조선대학교 컴퓨터공학과 교수

참고문헌

자료제공 : 네이버학술정보

    함께 이용한 논문

      ※ 기관로그인 시 무료 이용이 가능합니다.

      • 4,000원

      0개의 논문이 장바구니에 담겼습니다.