earticle

논문검색

확률 모델을 이용한 탠덤 질량 스펙트럼 FDR 기법

원문정보

FDR Techniques for Tandem Mass Spectrometry Using Probabilistic Models

조윤성, 박희진

피인용수 : 0(자료제공 : 네이버학술정보)

초록

영어

In this study, we propose a novel statistical validation method for proteomics data obtained via tandem mass spectrometry. Our method, based on the scores distribution of peptide-spectrum matches (PSMs) acquired from database-based analysis, aims to estimate the False Discovery Rate (FDR). Traditional Target-Decoy approaches estimate False Positives and compute FDR by analyzing both the actual dataset (Target) and artificially generated dataset (Decoy) together. However, our study proposes a new method that calculates FDR through the scores distribution of the top and second-best PSMs, using only the Target. This enables decoy-free searching and allows for more accurate FDR measurements. We validated a comparable level of accuracy with the conventional Target-Decoy approach, along with a 38% improvement in computational speed.

한국어

본 논문에서는 프로테오믹스 데이터의 통계적 검증을 위한 새로운 방법을 제안한다. 이 방법은 탠덤 질량 분석법을 활용하여 얻은 peptide-spectrum matches(PSM)의 점수 분포를 활용하여 False Discovery Rate(FDR)를 추 정하는 것을 목표로 한다. 기존의 Target-Decoy 방식에서는 실제 데이터셋(Target)과 인공적으로 생성된 데이터 셋(Decoy)을 함께 분석하여 False Positive를 추정하고 FDR을 계산해왔다. 하지만 이 연구에서는 새로운 접근법 을 제안하여 Target만을 사용하여 1등 PSM과 2등 PSM의 점수 분포를 분석하여 FDR을 계산하는 방법을 제시한 다. 이 새로운 방법은 Decoy-free 검색을 가능하게 하며, True와 False 분포를 재계산하여 보다 정확한 FDR 추 정이 가능하다. 이를 통해 기존의 Target-Decoy 방식에서 발생하는 계산 비용과 Decoy 데이터셋의 부정확성으로 인한 결과 왜곡과 같은 문제를 극복할 수 있다. 실험을 통해 기존의 Target-Decoy 방식과 유사한 수준의 정확도를 보이면서도 38.2%의 속도 향상을 달성하였다.

목차

요약
Abstract
1. 서론
2. 관련 연구
2.1 탠덤 질량 분석법
2.2 FDR
2.3 Target-Decoy
2.4 Target-Decoy 접근법의 한계
3. 확률 모델을 이용한 FDR
3.1 Target 기반 FDR 추정 방법
3.2 1등, 2등 PSM 점수 분포를 활용한 모델링
3.3 1등, 2등 PSM 점수의 확률 분포를 이용한 FDR 추정 방법
4. 실험 결과
4.1 실험 데이터
4.2 성능 비교
5. 결론
참고문헌

저자정보

  • 조윤성 Yoonsung Joh. 한양대학교 컴퓨터소프트웨어학과 박사과정
  • 박희진 Heejin Park. 한양대학교 컴퓨터공학부 교수

참고문헌

자료제공 : 네이버학술정보

    함께 이용한 논문

      0개의 논문이 장바구니에 담겼습니다.