초록 열기/닫기 버튼

사용자가 요구하는 정보를 정확하고 효과적으로 검색하는 작업은 더욱 불편해지고 있다. 문서의 클러스터링은 대용량의 문서 집합에서 효과적인 정보 검색을 위한 요구 기능이다. 본 논문에서는 문서의 검색 응용에 문서 단위로의 연산 보다는 문서 내의 의미 부분을 활용한다. 온톨로지를 활용, 문서내의 의미 흐름 기반으로 문서를 문단화하고 이를 클러스터링에 활용하는 기법을 제안한다. 의미 흐름 단위로 문서 분류를 수행하므로 의미 기반 클러스터링이 가능하다. 클러스터링을 수행하는데 사용하는 단위가 문서에서 문단으로 줄어든다. 따라서, 문단 기반의 검색이 가능하게 함으로써 사용자가 문서 내에서의 검색을 수행할 수 있다. Reuter-21578 문서 집합을 사용하여 실험한 결과 문단 기반 방식 보다 성능이 향상되었다.


It is inconvenient that users retrieve information from documents efficiently and precisely. Clustering documents is a function for efficient information retrieval from massive document set. In this paper, we use meaning particle unit rather than document unit for document retrieval. We present a method with using an ontology that makes a document into paragraphs based on meaning flow. As the process of classification is done based on meaning paragraph, it is possible to achieve meaning-based clustering. The processing unit of clustering is shrunk from a document to a paragraph. Therefore, paragraph-based retrieval makes it possible for user to retrieve information in a document. We performed some experiments by using Reuter-21578 document set and the results showed the performance of meaning-flow based clustering was better than the performance of documents-based clustering.