불균형 클래스에서 AutoML 기반 분류 모델의 성능 향상을 위한 데이터 처리

이동준; 강지수; 정경용

불균형 클래스에서 AutoML 기반 분류 모델의 성능 향상을 위한 데이터 처리

원문정보

Data Processing of AutoML-based Classification Models for Improving Performance in Unbalanced Classes

이동준, 강지수, 정경용

중소기업융합학회 융합정보논문지(구 중소기업융합학회논문지) 제11권 제6호 2021.06 pp.49-54 KCI 등재

피인용수 : 0건 (자료제공 : 네이버학술정보)

초록

영어

With the recent development of smart healthcare technology, interest in daily diseases is increasing. However, healthcare data has an imbalance between positive and negative data. This is caused by the difficulty of collecting data because there are relatively many people who are not patients compared to patients with certain diseases. Data imbalances need to be adjusted because they affect performance in ongoing learning during disease prediction and analysis. Therefore, in this paper, We replace missing values through multiple imputation in detection models to determine whether they are prevalent or not, and resolve data imbalances through over-sampling. Based on AutoML using preprocessed data, We generate several models and select top 3 models to generate ensemble models.

한국어

최근 스마트 헬스케어 기술의 발전에 따라 일상적인 질환에 대한 관심이 증가하고 있다. 이에 따라 헬스케 어 데이터를 통해 예측 모델로 질병을 분석하거나 예측하는 연구들이 증가하고 있다. 그러나 헬스케어 데이터에 는 양성 데이터와 음성 데이터의 불균형이 존재한다. 이는 특정 질환을 가진 환자에 비하여 상대적으로 환자가 아닌 사람이 많아 데이터 수집에 어려움이 있어 발생하는 현상이다. 데이터 불균형은 질병 예측 및 탐지 시 진행 하는 모델의 성능에 영향을 끼치기 때문에 이를 제거할 필요가 있다. 따라서 본 연구에서는 오버샘플링과 결측값 대치를 통해서 데이터 불균형을 해소한다. AutoML을 기반으로 여러 모델의 성능을 파악하고 모델 중 상위 3개 의 모델을 앙상블한다.

요약
Abstract
1. 서론
2. 관련 연구
2.1 MICE 함수를 활용한 결측값 대치
2.2 SMOTE를 활용한 데이터 불균형 처리
2.3 AutoML을 활용한 모델 생성
3. 불균형 클래스에서 AutoML 기반 분류 모델의 성능 향상을 위한 데이터 처리
3.1 데이터 수집 및 전처리
3.2 MICE 결측치 대치와 오버샘플링을 활용한 데이터 전처리
3.3 AutoML기반 분류 모델 생성
4. 결과 및 성능 평가
5. 결론
REFERENCES

키워드

저자정보

이동준 Dong-Joon Lee. 경기대학교 AI컴퓨터공학부 학부생, 2경기대학교 컴퓨터과학과 석사과정
강지수 Ji-Soo Kang. 경기대학교 컴퓨터과학과 석사과정
정경용 Kyungyong Chung. 경기대학교 AI컴퓨터공학부 교수

참고문헌

자료제공 : 네이버학술정보

함께 이용한 논문

※ 기관로그인 시 무료 이용이 가능합니다.

4,000원

0개의 논문이 장바구니에 담겼습니다.

earticle