earticle

논문검색

논문

클라우드 컴퓨팅을 이용한 개인 유전체 정보 분석: 병렬 CNV 영역 검색 알고리즘

원문정보

Personal genome analysis with cloud computing: parallel CNVR detection algorithm

이종근, 홍상균, 홍동완, 윤지희

피인용수 : 0(자료제공 : 네이버학술정보)

초록

영어

Recent advances in genome analysis method and sequencing technology may allow for a greater degree of personalized medicine than is currently available. Personalized medicine is a future medical model emphasizing the systematic use of genetic information about an individual patient to apply and optimize patient's preventative and therapeutic care. However, as an enormous amount of data (around 100 GB or up to 30x read coverage data for an individual) is needed to analyze and compare genetic information among many individuals, it is essential to employ the environment of high-performance computing system. In this study, we propose a novel algorithm to detect CNV (Copy Number Variation) regions by carrying out parallel and transparency processing based on cloud computing in a part of new frontier technologies. This method is able to perform simultaneous tasking with large numbers of computing nodes using open source of 'MapReduce' in 'Hadoop' project. The CNV regions detected by the proposed method are reported as a unit of map consists of , , and by carrying out parallel processing for tremendous size of short read data from next generation sequencing instrument.

한국어

최근 유전체 분석 기법과 시퀀싱 기기의 발전에 따라 개인별 맞춤 의학의 실현에 관한 기대가 높아지고 있다. 개인 맞춤 의학은 개인의 유전 정보를 분석하고 이 들의 특이성을 파악하여, 개인의 질병 예방 및 치료에 적용하고자 하는 전략이다. 그러나 한 개인의 시퀀스 분석을 위한 적정 커버리지(약 30 커버리지로 예측됨)의 시퀀싱 데이터는 100 GB를 넘는 방대한 크기를 가지므로 다수 개인의 유전 정보의 분석/비교를 위하여 대규모 데이터 처리/분석 환경 및 고성능 컴퓨팅 방식의 도입이 필수적이다. 본 연구에서는 클라우드 컴퓨팅 기술을 기반으로 하는 새로운 병렬 유전체 단위반복변위 (Copy Number Variation, CNV) 영역 추출 알고리즘을 제안한다. 제안된 방식에서는 다수의 컴퓨팅 노드를 활용하는 병렬 처리를 위하여 Hadoop의 MapReduce 오픈 소스를 사용하며, 대규모 유전자 시퀀스를 병렬로 처리하여 (개인_ID, 염색체_ID, 컨티그_ID) 단위로 CNV 영역을 추출, 보고한다.

목차

요약
 Abstract
 1. 서론1
 2. 관련연구
  2.1 클라우드 컴퓨팅과 MapReduce
  2.2 클라우드 컴퓨팅을 이용한 바이오 정보처리
 3. CNVR 추출 알고리즘
  3.1 CNVR 추출 방식
  3.2 병렬 CNV 추출 알고리즘
 4. 성능 평가
  4.1 실험 환경
  4.2 실험 결과
 5. 결론 및 향후 연구 과제
 참고문헌

저자정보

  • 이종근 Jongkeun Lee. 한림대학교 컴퓨터공학과
  • 홍상균 Sangkyoon Hong. 한림대학교 컴퓨터공학과
  • 홍동완 Dongwan Hong. 한림대학교 컴퓨터공학과
  • 윤지희 Jeehee Yoon. 한림대학교 컴퓨터공학과

참고문헌

자료제공 : 네이버학술정보

    함께 이용한 논문

      0개의 논문이 장바구니에 담겼습니다.