초록 열기/닫기 버튼

마이크로어레이 자료분석에서 결측값들을 추정치로 대체하는 결측값 추정의 전처리 과정이 필요하다. 본 논문에서는 마이크로어레이 유전자 발현 자료에 대한 결측값 추정을 위하여 다층 인식자(mutilayer perceptron: MLP) 신경망(neural network: NN)모형을 사용하였다. 먼저 목표유전자의 결측값들에 상응하는 완전유전자의 표본을 출력노드로 하고, 목표유전자의 관측값들에 상응하는 완전유전자의 표본들을 입력노드로 하는 NN모형을 구성한 후에 역전파(back propagation) 알고리즘을 훈련하여 NN모형을 추정한다. 다음으로 검증용 자료에서 목표유전자의 입력벡터 값을 훈련용 자료로 부터 추정된 NN모형에 대입하여 결측값을 추정한다. 세 가지의 이스트(yeast) 시간경로 자료들과 유방암과 전립선암 자료들에 대한 모의실험을 통해서 얻어지는 정규화된 제곱근 평균제곱오차의 관점에서 결측치와 입력벡터 간에 비선형관계의 가능성이 있다고 보여지는 주기성 시간경로 자료에 대하여 비선형 예측방법인 신경망방법이 유용하다고 판단된다.


In a microarray data analysis, it is required the preprocessing procedure that missing values are replaced with their estimates. In this paper, we used the multilayer perceptron (MLP) neural network(NN) model to estimate missing values for microarray gene expression data. The NN moel is estimated by training the back propagation algorithm, after constituting the NN model with samples of complete genes corresponding to missing values of a target gene as output nodes and samples of complete genes corresponding to observed values of a target gene as input nodes. Finally, in a test data, missing values are estimated by substituting that of a target gene for an input vector of an estimated NN model. It is thought that the NN method, nonlinear prediction method, is useful for cyclical time course data that seems to be nonlinear between missing values and an input vector in the view of normalized root mean square error through a simulation study for three yeast time course data set, breast tumor, and prostate tumor data sets.