초록 열기/닫기 버튼

일반적으로 데이터마이닝에서의 연관성 규칙은 각 항목간의 연관성을 반영하는 기준인 지지도, 신뢰도, 향상도 등의 흥미도 측도를 바탕으로 규칙 생성 여부를 판단하게 된다. 이들에 대한 기준값들을 너무 작게 하면 너무 많은 연관성 규칙이 생성되며, 너무 크게 하면 생성되는 연관성 규칙의 수가 작아지게 된다. 따라서 실제적으로 연관성 규칙의 수를 결정하기 위해서는 이들 흥미도 측도들의 평가 기준을 정하기 위해 반복적으로 조정 과정을 거쳐야 한다. 본 논문에서는 이러한 문제를 해결하기 위해 지지도와 신뢰도 및 향상도의 기준값에 대해 일반적으로 많이 활용되고 있는 비선형 회귀모형들을 적용하여 연관성 규칙의 수를 추정하였다. 또한 분산팽창계수를 이용하여 다중공선성 문제를 진단하는 동시에 분산분석 결과와 수정 결정계수를 이용하여 각 모형의 기여도를 비교하여 가장 바람직한 회귀 모형을 구하였다. 그 결과, 최저지지도와 최저신뢰도, 그리고 각각의 역수가 포함된 모형이 연관성 규칙의 수를 가장 잘 추정해주는 것으로 나타났다.


Data mining is the process of sorting through large amounts of data and picking out useful information. One of the well-studied problems in data mining is the search for association rules. An association rule technique in data mining finds the meaningful model among each items in large amounts of database using interestingness measures such as support, confidence, and lift. Interestingness measures are useful in that it shows the causes for pruning uninteresting rules statistically or logically. But the criteria of these measures are chosen by experiences, and so the number of useful rules is hard to estimate. If too many rules are generated, we can’t effectively extract the meaningful rules. In this paper, we designed a variety of non-linear regression equations between the number of rules and three interestingness measures. And then we diagnosed a multi-collinearity problem, and used analysis of variances and adjusted coefficients of determination for the best model through some numerical experiments.