초록 열기/닫기 버튼

In this paper, the appropriate model is selected for the risk assessment of the electric utility pole data with the help of cheat sheets and k-fold cross validation. In order to analyze, predict and forecast the data, the appropriate model has to be selected. The major issue is the declination of the accuracy in the model fitting, which may result in poor model selection. There are different type of machine learning algorithm, which makes it difficult to conclude the model selection. To ensure the proper selection of the model, we undergo a two-step process. Firstly, the basic model is selected with the existing model selection cheat sheets named as Scikit learn and Microsoft azure, by understanding the available input and required output of the data. After getting through the multiple question, the respective models such as Generalized Additive Model, Generalized Linear Model, Linear Regression and Support Vector Machine are obtained. In order to attain the appropriate model, we perform k-fold cross validation to estimate the risk of the algorithms, by comparing 2-fold, 8-fold and 10-fold cross validation. Between the three set, the 10-cross fold validation of generalized additive model is selected with the least risk error. Using k-fold cross validation, we estimate the accuracy of the model that is suitable for the data, by using the electric power data set.


이 논문에서는 치트 시트 및 k-교차 검증 기법을 이용하여 전주 상에서 검출되는 전력 데이터에 대한 최적 위험 평가 모델 기술 연구를 제안한다. 일반적으로 효율적인 빅데이터 분석 및 예측을 위해서는 데이터의 특성과 상황이 고려된 적절한 분석 모델의 선택이 중요하다. 빅데이터 분석을 위한 기계 학습 알고리즘은 모델유형이 다양하여 모델 선택이 어려울 수 있으며, 이러한 과정에서 모델 정합의 정밀도가 낮아지면 모델 선택의 오류가 발생될 수 있다. 제안하는 방법은 최적의 데이터 분석 모델의 선택을 보장하기 위해 2단계 모델 선택과정을 포함한다. 첫째, 기본 모델과정은 데이터의 사용 가능한 입력 및 필요한 출력을 이해함으로써, Scikit learn 및 Microsoft azure와 같은 선택 치트 시트를 통한 데이터 모델 선택과정이다. 이때, 다중 질문을 거친 후 일반화 된 가산 모델, 일반화 된 선형 모델, 선형 회귀 및 지원 벡터 머신과 같은 각각의 모델이 얻어진다. 두 번째 단계에서, 2배, 8배 및 10배의 교차 검증 비교를 통해 선택된 모델의 오류위험을 평가하는 k 배 교차 검증을 수행한다. 제안하는 모델의 시뮬레이션 실험을 통해 전력데이터에 대한 3가지 세트 사이에서, 일반화 된 모델의 10-교차 검증이 가장 적은 위험 오류로 선택되었음을 보였다. 따라서, 제안하는 k-배 교차 검증 방법을 사용하는 경우, 전력 데이터 세트뿐만 아니라 다양한 데이터 셋에 대해 해당 데이터에 적합하고 오류가 최소화된 데이터 모델을 선택할 수 있다.