earticle

논문검색

논문

Hadoop 프레임워크 상의 효율적인 다중 구조 데이터 처리 기법

원문정보

An Efficient Technique for Managing Multi-Structured Data on a Hadoop-based Framework

김종익, 최동훈

피인용수 : 0(자료제공 : 네이버학술정보)

초록

영어

To support multi-structured data in big data processing environments, distributed data processing frameworks often make use of a column-oriented storage technique. While column-oriented storage techniques efficiently handle analytic tasks such as selection and/or aggregation on a sparse column, they are not efficient in reconstructing records. In this paper, we propose a clustering technique that partitions data into groups of records having similar structures so as to reduce the number of columns in each group. We can not only reduce the search space of a query but also improve the performance of reconstructing a record by partitioning data. Through experiments, we show that the proposed technique improves the performance of query processing on multi-structured data.

한국어

빅데이터 처리 환경에서 다중 구조의 데이터 분석 작업을 효율적으로 처리하기 위해서 하둡 기반의 다양한 컬럼 기 반의 저장 기법들이 활용되고 있다. 컬럼 기반의 저장 기법은 희소 속성들에 대한 선택, 집계 연산에 매우 효율적이 지만 레코드를 재구성하는데 많은 비용을 요구한다. 본 논문에서는 다양한 구조의 데이터를 구조가 유사한 레코드들 로 클러스터링함으로써, 컬럼 기반의 저장방식을 사용하는 분산 처리 환경에서 질의 처리의 속도를 향상시키는 기법 을 제안하고 실험을 통해 제안하는 방법이 다중 데이터에 대한 질의 처리 성능 개선에 효율적임을 입증한다.

목차

요약
 Abstract
 1. 서론
 2. 관련 연구
 3. 다중 구조 데이터 관리 기법
  3.1 다중 구조 데이터의 저장 및 질의 처리
  3.2 레코드의 유사도 측정 및 다중 구조 데이터 분할
 4. 실험
  4.1 실험 환경 및 실험 데이터
  4.2 질의 처리 성능 비교
 5. 결론
 사사
 참고문헌

저자정보

  • 김종익 Jongik Kim. 전북대학교 컴퓨터공학부
  • 최동훈 Dong-Hoon Choi. 한국과학기술정보연구원

참고문헌

자료제공 : 네이버학술정보

    함께 이용한 논문

      0개의 논문이 장바구니에 담겼습니다.