원문정보
Personal genome analysis with cloud computing: parallel CNVR detection algorithm
초록
영어
Recent advances in genome analysis method and sequencing technology may allow for a greater degree of personalized medicine than is currently available. Personalized medicine is a future medical model emphasizing the systematic use of genetic information about an individual patient to apply and optimize patient's preventative and therapeutic care. However, as an enormous amount of data (around 100 GB or up to 30x read coverage data for an individual) is needed to analyze and compare genetic information among many individuals, it is essential to employ the environment of high-performance computing system. In this study, we propose a novel algorithm to detect CNV (Copy Number Variation) regions by carrying out parallel and transparency processing based on cloud computing in a part of new frontier technologies. This method is able to perform simultaneous tasking with large numbers of computing nodes using open source of 'MapReduce' in 'Hadoop' project. The CNV regions detected by the proposed method are reported as a unit of map consists of
한국어
최근 유전체 분석 기법과 시퀀싱 기기의 발전에 따라 개인별 맞춤 의학의 실현에 관한 기대가 높아지고 있다. 개인 맞춤 의학은 개인의 유전 정보를 분석하고 이 들의 특이성을 파악하여, 개인의 질병 예방 및 치료에 적용하고자 하는 전략이다. 그러나 한 개인의 시퀀스 분석을 위한 적정 커버리지(약 30 커버리지로 예측됨)의 시퀀싱 데이터는 100 GB를 넘는 방대한 크기를 가지므로 다수 개인의 유전 정보의 분석/비교를 위하여 대규모 데이터 처리/분석 환경 및 고성능 컴퓨팅 방식의 도입이 필수적이다. 본 연구에서는 클라우드 컴퓨팅 기술을 기반으로 하는 새로운 병렬 유전체 단위반복변위 (Copy Number Variation, CNV) 영역 추출 알고리즘을 제안한다. 제안된 방식에서는 다수의 컴퓨팅 노드를 활용하는 병렬 처리를 위하여 Hadoop의 MapReduce 오픈 소스를 사용하며, 대규모 유전자 시퀀스를 병렬로 처리하여 (개인_ID, 염색체_ID, 컨티그_ID) 단위로 CNV 영역을 추출, 보고한다.
목차
Abstract
1. 서론1
2. 관련연구
2.1 클라우드 컴퓨팅과 MapReduce
2.2 클라우드 컴퓨팅을 이용한 바이오 정보처리
3. CNVR 추출 알고리즘
3.1 CNVR 추출 방식
3.2 병렬 CNV 추출 알고리즘
4. 성능 평가
4.1 실험 환경
4.2 실험 결과
5. 결론 및 향후 연구 과제
참고문헌
