초록 열기/닫기 버튼

수치 데이터의 분류는 기계 학습에서 중요한 연구 주제이다. 그러나 특정 속성이 손실된 불완전한 데이터는 실세계 응용문제에 일반적이다. 이 문제를 풀기위해, FCM 군집화를 기반으로 하는 데이터 보상 기법이 불완전한 데이터를 추정하기 위해 사용한다. 이 접근 방법은 집락들의 중심 벡터를 계산하고 소속 확률을 결정한 다음, 최적의 해를 찾을 때까지 이 과정을 반복한다. 그리고 이 보상된 데이터를 분류하기 위한 알고리즘이 제안되고 이에 대한 뛰어난 성능을 보인다. 언제나 분류 문제는 두 과정으로 나누어질 수 있는데, 학습 과정과 테스트 과정이다. 분류 문제에서 불완전한 데이터를 취급하는 많은 방법들이 제안되어 왔다. 그러나 대부분은 학습과정 중에 불완전한 데이터의 처리에만 초점을 맞추고 있다. 따라서 분류 과정 중에 나타나는 불완전한 값을 위해서는 대부분의 현 접근법의 알고리즘들이 처리하지 못한다. 학습과 분류 과정 모두에서 불완전한 데이터를 해결하기 위한 방법은 중요하며 실생활 문제에 적용하기 위해서는 필요하다.


Classification of the numerical data is a very important research topic in machine learning. But the incomplete data inwhich certain features are missing, is very common in real world applications. For solving this problem, a data reparationapproach base on the Fuzzy c-Means(FCM) clustering is used to estimate the incomplete data. This approach calculates thecentroid vectors of the clusters and then determined the membership probability, and repeat this process until the optimumsolution is found. Then a new method is proposed to classify the repaired data and it has an outstanding performance. Usually, classification problem can be separated into two phases: learning phase and classification phase. Many methodsdealing with incomplete data in classification problem have been proposed, but most of them only focus on the processing ofhandling incomplete data in learning phase. For the incomplete value appearing in the classification phase, almost all of thecurrent approaches can not work. So handling incomplete data in both learning and classification phase is important andnecessary to be applied for solving the real world problems.