원문정보
Topical Clustering Techniques of Twitter Documents Using Korean Wikipedia
초록
영어
Recently, the need for retrieving documents is growing in SNS environment such as twitter. For supporting the twitter search, a clustering technique classifying the massively retrieved documents in terms of topics is required. However, due to the nature of twitter, there is a limit in applying previous simple techniques to clustering the twitter documents. To overcome such problem, we propose in this paper a new clustering technique suitable to twitter environment. In proposed method, we augment new terms to feature vectors representing the twitter documents, and recalculate the weights of features using Korean Wikipedia. In addition, we performed the experiments with Korean twitter documents, and proved the usability of proposed method through performance comparison with the previous techniques.
한국어
최근 들어 트위터와 같은 SNS 환경에서 검색의 필요성이 증가하고 있다. 트위터 검색을 지원하기 위해서는 다량으로 검색된 문서를 주제별로 분류하는 클러스터링 기법이 필요하다. 하지만 트위터의 특성상 단순한 클러스터링 기술을 그대로 적용하기에는 많은 제약이 따른다. 본 논문에서는 이를 극복하기 위해 트위터 환경에 적합한 클러스터 링 기법을 제안한다. 제안된 기법에서는 한글 위키피디아를 이용하여 각 트위터 문서에 대한 특징 벡터를 보강하고 각 특징들의 가중치를 재계산하는 방법을 이용하였다. 또한 한글 트위터 문서를 대상으로 실험을 실시하고 기존 기법 과의 성능 비교를 통해서 제안된 기법의 유용성을 증명하였다.
목차
Abstract
Ⅰ. 서론
Ⅱ. 관련연구
Ⅲ. 트위터 클러스터링 기법
1. 특징 가중치 계산
2. 특징 보강
3. 특징 재구성 알고리즘
Ⅳ. 성능 분석
Ⅴ. 결론
References