원문정보
Data Stream Split Processing Model for Out-of-order Data
초록
영어
It is crucial to process the data stream in event-time ordering when real-time processing a great amount of data. Data stream however, through various causes may create disorientation of the input order. These out-of-order data may induce data latency and reduce the correctness of the result. We propose a one such approach, a DSSP(Data Stream Split Processing) model that can reduce the latency of the data processing while increasing the accuracy of out-of-order data process results. To prevent the delay of response time caused by late data, our DSSP model splits input data stream into normal data stream that arrives on time and late data stream that does not. This model provides the result of normal data stream first, then applies the late data result that has been separately cached to assure the correctness of the data processing. We analyze the efficiency and performance of our DSSP model through experimental implementation.
한국어
대량의 데이터를 실시간으로 처리하는 스트리밍 처리에서는 데이터가 발생한 순서에 따라 처리하는 것이 중요하다. 그러나 데이터 스트림은 다양한 원인으로 인해 입력 순서가 뒤바뀔 수 있으며, 이런 무질서 데이터는 데이터 처리 시간을 지연시키거나, 처리 정확도를 떨어트리는 문제를 초래한다. 본 논문에서는 무질서 데이터 처리결과의 정확성 을 높이면서 이로 인해 발생하는 데이터 처리 지연을 줄일 수 있는 데이터 스트림 분리 처리 방법인 DSSP(Data Stream Split Processing) 모델을 제안한다. DSSP 모델은 지연 데이터로 인한 전체 처리시간의 지연을 방지하 기 위해 입력 데이터 스트림을 처리시간 내에 입력되는 정상 데이터 스트림과 처리시간 내에 입력되지 못한 지연 데 이터 스트림으로 분리하여 처리한다. 정상적으로 입력된 데이터는 처리결과를 우선 신속히 제공하고, 지연 입력된 데이터는 별도로 저장하였다가 그 처리결과를 추가로 반영하여 데이터의 정확성을 보장할 수 있도록 한다. 본 논문 에서는 DSSP 시스템의 실험적 구현을 통해 그 효율과 성능을 분석한다.
목차
Abstract
1. 서론
2. 관련 연구
2.1 워터마크 기반 기법
2.2 데이터 플로 모델
2.3 람다 아키텍처
3. DSSP 모델
3.1 워터마크
3.2 2단계 트리거링
3.3 데이터 처리
4. DSSP 시스템 구현 및 성능분석
4.1 실험환경
4.2 성능분석
5. 결론 및 향후 연구
Acknowledgement
참고문헌