원문정보
An Efficient Technique for Managing Multi-Structured Data on a Hadoop-based Framework
초록
영어
To support multi-structured data in big data processing environments, distributed data processing frameworks often make use of a column-oriented storage technique. While column-oriented storage techniques efficiently handle analytic tasks such as selection and/or aggregation on a sparse column, they are not efficient in reconstructing records. In this paper, we propose a clustering technique that partitions data into groups of records having similar structures so as to reduce the number of columns in each group. We can not only reduce the search space of a query but also improve the performance of reconstructing a record by partitioning data. Through experiments, we show that the proposed technique improves the performance of query processing on multi-structured data.
한국어
빅데이터 처리 환경에서 다중 구조의 데이터 분석 작업을 효율적으로 처리하기 위해서 하둡 기반의 다양한 컬럼 기 반의 저장 기법들이 활용되고 있다. 컬럼 기반의 저장 기법은 희소 속성들에 대한 선택, 집계 연산에 매우 효율적이 지만 레코드를 재구성하는데 많은 비용을 요구한다. 본 논문에서는 다양한 구조의 데이터를 구조가 유사한 레코드들 로 클러스터링함으로써, 컬럼 기반의 저장방식을 사용하는 분산 처리 환경에서 질의 처리의 속도를 향상시키는 기법 을 제안하고 실험을 통해 제안하는 방법이 다중 데이터에 대한 질의 처리 성능 개선에 효율적임을 입증한다.
목차
Abstract
1. 서론
2. 관련 연구
3. 다중 구조 데이터 관리 기법
3.1 다중 구조 데이터의 저장 및 질의 처리
3.2 레코드의 유사도 측정 및 다중 구조 데이터 분할
4. 실험
4.1 실험 환경 및 실험 데이터
4.2 질의 처리 성능 비교
5. 결론
사사
참고문헌