원문정보
Implementation and Performance Analysis of Efficient Data Manager for Genome Data
초록
영어
Recently, many studies have been done on managing and analyzing genome data because researches of the medical field have a lot of interests. Genome data analysis process has consist of two main parts, One is pre-processing which does mapping and tagging to genome data and another is post-processing which does generating mutations of genome data and analyzing mutated data. The pre-processing jab maps and tags to the combinations of whole genome sequences which are the parts of three billions of sequences in a genome data, so that the job takes too much time. However, it generates same data results if the input data is same. The post-processing job makes mutated genome data which is effected by the order of used mutation algorithms, the kinds of mutation algorithms and the number of iterations for reprocessing jobs. In this paper, we design an efficient genome data manager by considering the characteristics of genome data analysis process. First, we design a data sharing table to share genome data efficiently. Secondly, we design a provenance index tree to handle the provenances of genome data processing. Thirdly, based on the designed methods, we design algorithms for managing genome data. At last, we implement our algorithm and show its performance.
한국어
최근 의료 분야에 대한 관심이 높아짐에 따라 유전체 데이터를 관리 및 분석하는 기술에 대한 많은 연구가 수행되고 있다. 유전체 데이터 분석은 유전체 데이터의 매핑(mapping) 및 태깅(tagging)을 수행하는 전처리단계와 변이된 유전체 데이터를 생성하고 분석하는 후처리단계로 구성된다. 전처리 단계는 약 30억 개 이상의 염기 서열 조합에 대해 분석 작업을 수행하기 때문에 많은 시간이 소요된다. 그러나 입력된 데이터가 동일할 경우 동일한 결과 데이터가 생성되는 특징을 지닌다. 한편, 후처리단계에서는 각종 변이 알고리즘 종류 및 적용 순서 등에 의해, 매번 상이한 결과 데이터가 생성되는 특징을 지닌다. 이와 같은 특성을 고려하면, 효율적인 유전체 분석 데이터 공유 및 유전체 데이터 분석 과정, 즉, 유전체 데이터 유래의 검색을 지원해야한다. 따라서 본 논문에서는 유전체 데이터의 특성을 고려하여, 대용량 유전체 데이터를 위한 효율적인 데이터 관리자를 구현한다. 첫째, 원활한 데이터 공유를 위해 공유 권한 테이블을 설계한다. 둘째, 각 파이프라인의 결과 데이터 및 유사한 유전체 데이터 관리를 위해 유전체 데이터 유래 관리 기법를 설계한다. 셋째, 설계한 데이터 공유 및 유래 관리 기법을 기반으로 데이터 관리자의 주요 알고리즘을 설계한다. 마지막으로 설계된 알고리즘을 구현하여 성능평가를 수행한다.
목차
Abstract
1. 서론
2. 관련 연구
3. 유전체 데이터를 위한 효율적인 데이터관리자
3.1 유전체 데이터 분석 과정의 특성
3.2 전체 시스템 구조
3.3 유전체 데이터의 공유 및 유래 관리 알고리즘
4. 성능평가
4.1 성능평가 환경 및 고려사항
4.2 성능평가
4.3 성능고찰
5. 결론
참고문헌
