초록 열기/닫기 버튼

본 논문에서는 XML 문서에 대해서 중요한 특징 중 하나인 임의의 태그 생성 기법을 이용하여 클러스터링한다. 태그 특징 벡터와 문단의 단어를 분리하여 특징 벡터를 생성하여 코호넨 맵에 적용하여 클러스터링을 수행하였다. 태그는 꼭 필요한 키워드이므로 이진법을 사용하고 단어는 TF/IDF 기법을 사용하였다. Reuter-21578 문헌 집합을 이용하여 실험한 결과 50% 전후의 재현률과 정확률을 산출하였다. 또한, 전통적인 자동 문서 분류 알고리즘인 SVM과 K-NN과 비교 실험도 수행하였다. 카테고리가 정해진 분류 시스템인 SVM과 K_NN 시스템과의 비교에서 전체적으로 10%정도 성능이 좋게 나왔다.


One of the important features for the XML document is the creation of arbitrary tags. In this paper, we make use of it for clustering XML documents. Tag feature vector and word feature vector are separately created . Clustering was performed by applying a Kohonen map. Because tags are necessary keywords, we utilized binary method for them. TF / IDF technique was used for word feature vector. Reuter-21578 collections are experimented. The results of experimentation is almost rate of 50% in recall and precision rate. In addition, the traditional classification algorithm, SVM and K-NN was also compared with our system. Performance of our results were 10% more than SVM, K_NN system.