원문정보
초록
한국어
이분류 문제에서 특정 클래스의 빈도가 다른 클래스에 비해 과도하게 높은 경우, 왜곡된 학습을 유발할 수 있는 데이터 불균형(imbalanced data) 문제가 발생한다. 실제로 금융, 마케팅, 의료, 재해 등 많은 분야의 예측을 위한 데이터셋들은 데이터 불균형 문제에 노출되어 있는 경우가 많다. 기업부도예측 문제도 그 중 하나인데, 일반적으로 금융기관과 거래하는 기업들의 부도율은 대단히 낮아서, 부도 사례보다 정상 사례의 빈도가 월등히 높은 데이터 불균형 문제가 발생하고 있다. 그리고, 이러한 데이터 불균형 문제를 해결하기 위해, 실제 산업 현장에서는 대표적인 표본추출 기법인 언더 샘플링(undersampling), 오버샘플링(oversampling)과 더불어 다양한 표본추출 기법들이 적용되어 왔다. 본 연구에서는 효과적인 기업부도예측모형 학습을 위한 표본추출 기법으로 Menardi and Torelli(2014)가 제안한 ROSE(random over sampling examples) 기법을 제안한다. ROSE 기법은 반복적으로 학습에 사용될 사례를 중복 없이 새롭게 합성하여 생성(synthetic generation)하는 기법으로서, 현존하는 다양한 표본추출 기법에 비해 더 우수한 성능을 보이는 것으로 알려져 있다. 하지만, 기업부도예측에 적용하여 그 성능을 검증한 연구는 아직 발견되지 않고 있다. 이에 본 연구에서는 ROSE 기법을 가장 성능이 우수한 분류기로 알려진 SVM(support vector machine)과 결합하여 그에 따른 예측정확도를 확인해 보고, 이를 다른 표본추출 기법들과 비교 분석해 보고자 한다.
목차
1. 서론
2. 제안 알고리즘: ROSE(Random over sampling)
3. 실증 분석 계획
3.1 실험 데이터
3.2 실험 계획
4. 결언
Reference
