earticle

논문검색

기술

k-Modes 분할 알고리즘에 의한 군집의 상관정보 기반 빅데이터 분석

원문정보

A Big Data Analysis by Between-Cluster Information using k-Modes Clustering Algorithm

박인규

피인용수 : 0(자료제공 : 네이버학술정보)

초록

영어

This paper describes subspace clustering of categorical data for convergence and integration. Because categorical data are not designed for dealing only with numerical data, The conventional evaluation measures are more likely to have the limitations due to the absence of ordering and high dimensional data and scarcity of frequency. Hence, conditional entropy measure is proposed to evaluate close approximation of cohesion among attributes within each cluster. We propose a new objective function that is used to reflect the optimistic clustering so that the within-cluster dispersion is minimized and the between-cluster separation is enhanced. We performed experiments on five real-world datasets, comparing the performance of our algorithms with four algorithms, using three evaluation metrics: accuracy, f-measure and adjusted Rand index. According to the experiments, the proposed algorithm outperforms the algorithms that were considered int the evaluation, regarding the considered metrics.

한국어

본 논문은 융복합을 위한 범주형 데이터의 부공간에 의한 군집화에 대해서 다룬다. 범주형 데이터는 수치형 데이터에만 국한되지 않기 때문에 기존의 범주형 데이터들의 평가척도들은 순서화(ordering)의 부재와 데이터의 고차원성과 희소성으로 인하여 한계를 가지기 마련이다. 따라서 각각의 군집에 존재하는 범주형 속성들의 상호 유사도을 보다 근접하게 측정할 수 있는 조건부 엔트로피 척도를 제안한다. 또한 군집의 최적화를 위하여 군집내의 발산을 최소화하고, 군집간의 독립성을 향상시킬 수 있는 새로운 목적함수를 제안한다. 제안된 알고리즘의 성능을 4개의 알고리즘과 비교검증하기 위하여 5가지의 데이터에 대하여 실험을 수행하였다. 비교검증을 위한 평가척도는 정확도, f-척도와 적응된 Rand 색인이다. 실험을 통하여 제안된 방법이 평가척도에 의한 결과에서 기존의 방법들보다 좋은 성능을 보였다.

목차

요약
 Abstract
 1. 서론
 2. k-Modes 군집의 유사도 척도
  2.1 범주형 정보시스템
  2.2 조건부 엔트로피에 의한 속성간의 유사도
  2.3 조건부 엔트로피에 의한 속성과 모드간의 유사도
 3. 조건부 엔트로피 k-modes 알고리즘
 4. 실험 및 결과고찰
 5. 결론
 ACKNOWLEDGMENTS
 REFERENCES

저자정보

  • 박인규 In-Kyoo Park. 중부대학교 컴퓨터∙게임공학과

참고문헌

자료제공 : 네이버학술정보

    함께 이용한 논문

      ※ 기관로그인 시 무료 이용이 가능합니다.

      • 4,000원

      0개의 논문이 장바구니에 담겼습니다.