초록 열기/닫기 버튼
본 논문은 결정 트리를 이용하여 불완전한 데이터에서 결측값의 추정치를 구하는 알고리즘에 대해 소개한다. 결정 트리를 구성하기 위한 분류기로 서로 다른 특성을 가지는 C4.5와 SVM 계열의 알고리즘을 사용하는데 구현 과정을 통해 두 분류기의 특성과 성능을 알아본다. 불완전한 데이터의 처리기법으로 결정트리를 선택한 것은 결정 트리의 각 노드들은 입력 패턴들의 분류 정보(hyperplane)를 가지고 있고, 루트에서 말단 노드에 이르는 경로는 분류면을 결합하게 하여 하나의 영역을 만든다는 것이다. 따라서 불완전한 데이터를 위한 본 논문의 핵심 아이디어는 루트에 손실 사건을 입력하고 순회를 통해 손실 정보와 가장 유사한 영역을 찾는다. 그리고 이 영역의 사건들로부터 손실정보의 추정치를 구한다는 것이다. 구현의 관점에서 살펴보면 학습 데이터를 손실과 비손실 데이터로 분리하고, 비손실 데이터를 C4.5/SVM에 입력하여 결정 트리를 완성한다. 다음으로 손실 데이터를 이 결정 트리에 입력한 후, 가장 유사한 특성을 찾기 위한 조건에 따라 순회를 단말 노드에 도달할 때까지 반복한다.
This paper introduces an algorithm to obtain an estimate of the missing value from incomplete data using decision trees. As a classifier to construct a decision tree, C4.5 and SVM series algorithms with different characteristics are used, and the characteristics and performance of the two classifiers are examined through the implementation process. The decision tree is selected as a handling technique for incomplete data because each node of the decision tree has the classification information (hyperplane) of the input patterns, and the path from the root to the terminal node combines the hyperplanes to form a single domain. Therefore, the key idea of this paper for incomplete data is to enter the missing event in the root and find the area most similar to the missing information through traversal. Then, an estimate of the missing information is obtained from the events in this domain. From the implementation point of view, the training data is divided into lossy data and non-lossy data, and the decision tree is completed by inputting the non-lossy data into C4.5/SVM. Next, after inputting the loss data into this decision tree, the traversal is repeated until reaching the terminal node according to the condition for finding the most similar property.