원문정보
DTW-Based Borderline-SMOTE : Data Augmentation Approach for Imbalanced Time Series
초록
영어
Time series data are widely utilized in various domains such as healthcare, finance, and industry. However, class imbalance often leads to a decline in the predictive performance of classifiers. Existing data augmentation techniques primarily focus on simple distance-based sample selection or interpolation, which fails to adequately reflect the structural and boundary characteristics of time series data. To address this limitation, this study proposes a novel augmentation method called Borderline-DTW-SMOTE, which simultaneously considers temporal similarity and class boundary information. The proposed method identifies risky samples within the minority class using Dynamic Time Warping (DTW) distance and generates synthetic time series data through two strategies: (1) linear interpolation between different risky samples, and (2) interpolation between a risky sample and its adjacent majority class sample. Experiments were conducted on seven UCR time series datasets using five classification models: CART, KNN, Logistic Regression, XGBoost, and CNN. The results, measured by F1-score, show that the proposed method outperformed existing techniques in XGBoost and CNN models, indicating that the DTW-based boundary-focused augmentation effectively mitigates class imbalance in time series classification.
한국어
시계열 데이터는 의료, 금융, 산업 등 다양한 분야에서 활용되며, 클래스 간 불균형은 분류기의 예측 성능 저하를 초 래한다. 기존의 증강 기법은 주로 단순한 거리 기반 샘플 선택이나 보간에 집중되어 있어, 시계열의 구조와 분류 경계 정 보를 충분히 반영하지 못한다. 이에 본 연구는 시계열 데이터의 시간적 유사성과 클래스 경계 정보를 동시에 고려한 새로운 데이터 증강 기법인 Borderline-DTW-SMOTE를 제안한다. 제안 기법은 Dynamic Time Warping(DTW) 거리 를 활용하여 소수 클래스 내 위험 샘플을 식별하고, 두 가지 방식으로 증강을 수행한다. 첫 번째는 서로 다른 위험 샘플 간의 선형 보간이며, 두 번째는 위험 샘플과 인접한 다수 클래스 샘플 간의 보간을 통해 새로운 합성 시계열을 생성하는 방식이다. UCR 시계열 데이터셋 7종을 활용하여 실험을 수행하였고, CART, KNN, LogisticRegression, XGBoost, CNN 총 5개의 분류 모델을 통해 성능을 비교하였다. 실험 결과, F1-score를 비교한 결과, 제안 기법은 XGBoost와 CNN 모델에 서 기존 기법 대비 우수한 F1-score를 기록하였으며, 이는 시계열 분류에서 DTW 기반의 경계 중심 증강 방식이 클래스 불균 형 문제를 효과적으로 완화할 수 있음을 시사한다.
목차
Abstract
Ⅰ. 서론
Ⅱ. 관련 연구
1. SMOTE 기법 정의 및 한계
2. DTW 기반 시계열 유사도 측정 기법
3. Borderline-SMOTE 기법
4. M-SMOTE 및 T-SMOTE
Ⅲ. 제안 방법
1. 제안 방법의 개요
2. 세부 알고리즘 단계
Ⅳ. 실험 및 결과
1. 실험 데이터셋 및 평가 지표
2. 실험 시나리오 및 파라미터 설정
3. 성능 비교 및 결과 해석
Ⅴ. 결론
References
