원문정보
A Model for Outlier Detection and Missing Data Imputation in Traffic Time Series Using Temporal Factors
초록
영어
This study proposes an integrated correction method that effectively handles outliers and missing values in real-time traffic data, using data from 1,569 roads in Incheon between 2022 and 2024. The proposed method first removes outliers empirically, then constructs an integrated pipeline by combining "hourly Z-score" with "hourly average imputation." To validate this approach, we assembled 35 models by combining seven outlier-detection techniques and five missing-value imputation methods, including those commonly used in practice. We then conducted experiments involving artificially generated outliers and missing values, as well as performance comparisons using an LSTM prediction model. The results demonstrate that the proposed method outperforms all other combinations in both verification tests. This suggests that a simple, statistically based preprocessing strategy incorporating hourly characteristics is highly effective for improving urban traffic flow forecasts and has significant potential for real-time environments.
한국어
본 연구는 월(Month), 시간(Hour), 휴일(Day off) 여부를 종합한 복합 시간적 요소(Temporal Factors)를 활용하여, 실시간 교통 데이터의 이상치와 결측치를 정밀하게 처리하는 보정 모델을 제안한다. 모델은 이 시간적 요소로 데이터를 그룹화 후 그룹 내 Z-score로 이상치를 탐지하며, 결측치는 시간적 요소 그룹 내 평균 기반 단계적 보간 방식을 결합한 파이프라인을 구성한다. 모델의 성능을 검증하기 위해 인천시 1,569개 도로의 교통량 데이터를 기반으로, 실무에서 널 리 쓰이는 기법들과 비교 평가를 수행했다. 그 결과, 복원 및 예측 정확도 실험 모두에서 제안 모델이 다른 기법 조합들보다 통계적으로 유의미하게 우수한 성능을 보이는 것을 확인했다. 이는 계절성, 일별 주기, 휴일 등 복합적 시간 요소를 반영하는 것이 예측 정확도 향상에 매우 효과적임을 입증하며, 실시간 데이터 전처리를 위한 본 모델의 높은 실용적 가치를 시사한다.
목차
ABSTRACT
Ⅰ. 서론
Ⅱ. 관련 연구
Ⅲ. 방법론
1. 인천시 교통량 데이터
2. 이상치 및 결측치 모델
3. 검증 비교 모델
4. 이상치 및 결측치 보정 성능 검증
5. 측정항목
Ⅳ. 실험 결과
1. 임의 생성된 이상치 및 결측치 처리 결과
2. 보정된 데이터에 대한 예측 모델 성능 비교
Ⅴ. 결론
REFERENCES
