원문정보
초록
영어
The information era requires another new research approach to store, manage and process the big data accumulated rapidly in a variety of forms. This paper pursues the research on handling and analyzing digital tachograph big data, which is recorded in a time series manner. It also proposes the methodology of performance improvement in distributed processing for patternbased analysis over Hadoop Distributed File System and MapReduce. By means of our proposing mechanism that includes preprocessing, filtering, and secondary sorting, it is possible that the time series featured pattern is captured, analyzed and generated in the form of an event on the top of time series big data, which would be scattered over distributed files. This paper also shows the effect of performance progress with big data preprocessing, and verifies properness, correctness, and high-performance improvement via experiments with our proposing time series MapReduce mechanism.
한국어
정보화 시대는 다양한 형태로 빠르게 축적되고 있는 빅데이터를 저장, 관리 및 처리하기 위한 새로운 연구 접근법을 요구하고 있다. 본 논문은 시계열 특성을 가지는 디지털운행기록계 빅데이터의 처리 분석을 대한 연구를 진행하고, 하둡분산파일시스템과 맵리듀스를 이용하여 패턴 기반의 분석을 위한 분산 처리의 성능 향상을 이루는 방법론을 제안한다. 전처리 과정, 필터링, 이차정렬을 포함하는 본 논문의 메커니즘을 이용하면, 여러 파일에 분할 저장된 시계열 빅데이터에서 시계열 특성의 패턴 을 이벤트 형태로 분석 및 생성할 수 있다. 본 논문은 빅데이터의 전처리 과정을 통한 성능 향상 효과 와, 제안한 시계열 분석 방법론인 시계열 맵리듀스 메커니즘을 적용한 실험과 분석 결과를 통하여 본 논문이 제안한 방법론의 타당성, 정확성 및 고성능 향상성을 보인다.
목차
Abstract
1. 서론
2. 빅데이터 처리를 위한 하둡 프레임워크
2.1. 하둡분산파일시스템
2.2. 맵리듀스
3. DTG 빅데이터의 시계열 특성
3.1. DTG 빅데이터와 이벤트
3.2. 단일 시스템에서의 순차적 처리
3.3. 맵리듀스를 이용한 분산 병렬 처리
4. 시계열 빅데이터를 위한 개선된 맵리듀스메커니즘
4.1. DTG 파일의 전처리
4.2. 하둡 클러스터에서의 처리 메커니즘
5. 실험 결과
6. 결론
References