원문정보
Data Processing of AutoML-based Classification Models for Improving Performance in Unbalanced Classes
초록
영어
With the recent development of smart healthcare technology, interest in daily diseases is increasing. However, healthcare data has an imbalance between positive and negative data. This is caused by the difficulty of collecting data because there are relatively many people who are not patients compared to patients with certain diseases. Data imbalances need to be adjusted because they affect performance in ongoing learning during disease prediction and analysis. Therefore, in this paper, We replace missing values through multiple imputation in detection models to determine whether they are prevalent or not, and resolve data imbalances through over-sampling. Based on AutoML using preprocessed data, We generate several models and select top 3 models to generate ensemble models.
한국어
최근 스마트 헬스케어 기술의 발전에 따라 일상적인 질환에 대한 관심이 증가하고 있다. 이에 따라 헬스케 어 데이터를 통해 예측 모델로 질병을 분석하거나 예측하는 연구들이 증가하고 있다. 그러나 헬스케어 데이터에 는 양성 데이터와 음성 데이터의 불균형이 존재한다. 이는 특정 질환을 가진 환자에 비하여 상대적으로 환자가 아닌 사람이 많아 데이터 수집에 어려움이 있어 발생하는 현상이다. 데이터 불균형은 질병 예측 및 탐지 시 진행 하는 모델의 성능에 영향을 끼치기 때문에 이를 제거할 필요가 있다. 따라서 본 연구에서는 오버샘플링과 결측값 대치를 통해서 데이터 불균형을 해소한다. AutoML을 기반으로 여러 모델의 성능을 파악하고 모델 중 상위 3개 의 모델을 앙상블한다.
목차
Abstract
1. 서론
2. 관련 연구
2.1 MICE 함수를 활용한 결측값 대치
2.2 SMOTE를 활용한 데이터 불균형 처리
2.3 AutoML을 활용한 모델 생성
3. 불균형 클래스에서 AutoML 기반 분류 모델의 성능 향상을 위한 데이터 처리
3.1 데이터 수집 및 전처리
3.2 MICE 결측치 대치와 오버샘플링을 활용한 데이터 전처리
3.3 AutoML기반 분류 모델 생성
4. 결과 및 성능 평가
5. 결론
REFERENCES