초록 열기/닫기 버튼

데이터마이닝 기법 중에서 가장 많이 활용되고 있는 연관성 규칙은 방대한 양의 데이터에서 각 항목들 간의 관련성을 찾아내는 기법으로 두 품목간의 관계를 흥미도 측도를 이용하여 명확히 수치화하여 항목집합들 간의 관련성을 표시하게 된다. 일반적으로 각 항목집합들 간의 연관성 여부는 그들 간의 지지도, 신뢰도, 향상도 등의 흥미도 측도를 바탕으로 측정하게 된다. 본 논문에서는 의학분야에서 질병과 어떤 원인들 간의 상관정도를 측정하는 연관성 측도인 오즈비와 상대위험도에 대해 비교하는 동시에 Piatetsky-Shapiro가 제안한 데이터마이닝 분야에서의 흥미도 측도의 조건을 충족하는지에 대해서도 알아보았다. 또한 예제를 통하여 고찰해 결과, 기존의 흥미도 측도인 신뢰도에 비해 오즈비와 상대위험도가 더 바람직한 측도이며, 이들 중에서는 오즈비가 더 바람직한 것으로 관찰되었다.


One of the well-studied problems in data mining is exploration for association rules. An association rule technique finds the relation among each items in massive volume database. Some interestingess measures have been developed in association rule mining. Interestingness measures are useful in that it shows the causes for pruning uninteresting rules statistically or logically. We revisit odds ratio and relative risk to measure relationship between some diseases and some causes in medical science, and examine interestingness measure conditions given by Piatetsky-Shapiro. And then comparative studies for confidence, odds ratio and relative risk are shown by numerical example. The results show that the odds ratio and relative risk can avoid the discovery of misleading association rules, and odds ratio is better interestingness measure than relative risk by variation of values as same occurrence frequencies.