원문정보
A study on anomaly detection based on deep learning using cloud monitoring data
초록
영어
In this paper, we propose an effective anomaly detection approach by developing a deep learning model to predict anomalies using telemetry data from cloud operational resources. The performance of the proposed model is compared with the conventional statistical approach, specifically the normal distribution model. Telemetry data, including CPU usage, Memory usage, Network traffic (bytes per sec), Data Read latency, and Data Read operation for 2,937 instances of cloud resources, were collected. Of these, 1,577 data points were utilized for training, and 1,369 for testing. An LSTM-based Autoencoder model was constructed and trained to verify the normal progression of learning by examining the difference between the learned result data and the training data. Thresholds were extracted by analyzing the values of telemetry training data and result data in a normal state of cloud infrastructure. During testing, if the extracted thresholds were exceeded, the data was considered anomalous, and if it fell below the threshold, it was considered normal. The proposed model was validated using the test data, achieving a 92% accuracy rate, which demonstrated superior performance compared to the statistical approach using the normal distribution model (57% accuracy).
한국어
본 논문에서는 클라우드 운영 자원의 텔레메트리 데이터를 활용하여 이상치를 예측하는 딥러닝 모델을 개발하고 기 존 통계적 기법인 정규 분포 모델과 성능을 비교하여 효과적인 이상탐지 방안을 제안한다. 클라우드 자원인 인스턴 스의 CPU 사용량, 메모리 사용량, 네트워크 트래픽(초당 바이트), 데이터 읽기 지연, 데이터 읽기 작업 데이터 2,937개를 수집하였으며, 1,577개의 학습 데이터를 활용하였고 테스트 데이터는 1,369개의 데이터를 활용하였 다. LSTM 기반의 오토 인코더를 활용하여 작성된 모델로 학습 단계를 통해 학습된 결과 데이터와 학습 데이터의 차이값으로 학습이 정상으로 진행 되었는지 확인하였다. 클라우드 인프라가 정상적인 상태에서의 텔레메트리 학습 데이터와 결과 데이터의 값을 분석하여 임계치를 추출하였다. 테스트 데이터를 추출한 임계치와 비교하여 임계치 이 상일 경우 이상치로 판단하고 임계치 이하인 경우는 정상으로 판단하였다. 테스트 데이터를 통해 본 연구 모델을 검 증하였으며 검증 결과 92%로 정상적으로 판정하여, 통계적 기법인 정규 분포 성능(57% accuracy) 대비 성능이 우수하다는 것을 확인하였다.
목차
Abstract
1. 서론
2. 관련 연구
2.1 클라우드 모니터링
2.2 인프라 이상 탐지 연구
3. 모델 설명
3.1 이상 탐지 모델 구조
3.2 연구 진행 순서
3.3 자료 수집
3.4 데이터 학습
3.5 임계치 설정
3.6. 정상여부 판단
4. 실험 방식과 결과
4.1 실험환경
4.2 데이터 준비
4.3 실험모델
4.4 실험결과 분석
4.5 통계적 기법과 비교
5. 결론
참고문헌