Clustering of XML Documents using Tag Information with Kohonen Map

본 논문에서는 XML 문서에 대해서 중요한 특징 중 하나인 임의의 태그 생성 기법을 이용하여 클러스터링한다. 태그 특징 벡터와 문단의 단어를 분리하여 특징 벡터를 생성하여 코호넨 맵에 적용하여 클러스터링을 수행하였다. 태그는 꼭 필요한 키워드이므로 이진법을 사용하고 단어는 TF/IDF 기법을 사용하였다. Reuter-21578 문헌 집합을 이용하여 실험한 결과 50% 전후의 재현률과 정확률을 산출하였다. 또한, 전통적인 자동 문서 분류 알고리즘인 SVM과 K-NN과 비교 실험도 수행하였다. 카테고리가 정해진 분류 시스템인 SVM과 K_NN 시스템과의 비교에서 전체적으로 10%정도 성능이 좋게 나왔다.

One of the important features for the XML document is the creation of arbitrary tags. In this paper, we make use of it for clustering XML documents. Tag feature vector and word feature vector are separately created . Clustering was performed by applying a Kohonen map. Because tags are necessary keywords, we utilized binary method for them. TF / IDF technique was used for word feature vector. Reuter-21578 collections are experimented. The results of experimentation is almost rate of 50% in recall and precision rate. In addition, the traditional classification algorithm, SVM and K-NN was also compared with our system. Performance of our results were 10% more than SVM, K_NN system.

키워드열기/닫기 버튼

Clustering

이 키워드로 연구동향 분석 이 키워드로 논문 검색

Kohonen Network

이 키워드로 연구동향 분석 이 키워드로 논문 검색

XML

이 키워드로 연구동향 분석 이 키워드로 논문 검색

tag

이 키워드로 연구동향 분석 이 키워드로 논문 검색

Feature Vector

이 키워드로 연구동향 분석 이 키워드로 논문 검색

피인용 횟수

KCI 0회
FWCI (2023-07-26 기준) 0 열기/닫기 버튼
같은 출판연도, 주제분야, 논문 형태에 따라 인용을 측정하여 정규화한 인용지수입니다.

인용현황

KCI에서 이 논문을 인용한 논문의 수는 0건입니다.

참고문헌(11) 열기/닫기 버튼 * 2023년 이후 발행 논문의 참고문헌은 현재 구축 중입니다.

오류신고