원문정보
Technique for Malicious Code Detection using Stacked Convolution AutoEncoder
초록
영어
Malicious codes cause damage to equipments while avoiding detection programs(vaccines). The reason why it is difficult to detect such these new malwares using the existing vaccines is that they use “signature-based” detection techniques. these techniques effectively detect already known malicious codes, however, they have problems about detecting new malicious codes. Therefore, most of vaccines have recognized these drawbacks and additionally make use of “heuristic” techniques. This paper proposes a technology to detecting unknown malicious code using deep learning. In addition, detecting malware skill using Supervisor Learning approach has a clear limitation. This is because, there are countless files that can be run on the devices. Thus, this paper utilizes Stacked Convolution AutoEncoder(SCAE) known as Semi-Supervisor Learning. To be specific, byte information of file was extracted, imaging was carried out, and these images were learned to model. Finally, Accuracy of 98.84% was achieved as a result of inferring unlearned malicious and non-malicious codes to the model.
한국어
악성코드는 탐지 프로그램을 피해 기기들에게 피해를 유발한다. 기존의 악성코드 탐지 기법으로 이러한 새로운 악성코드를 탐지하는데 어려움을 겪는 이유는 서명 기반의 탐지 기법을 사용하기 때문이다. 이 기법은 기존 악성코드들 은 효과적으로 탐지하지만, 새로운 악성코드에 대해서는 탐지가 어렵다. 이러한 문제점을 인식하여, 휴리스틱 기법을 추 가적으로 사용한다. 이 논문에서는 딥러닝을 활용하여 악성코드를 탐지하는 기술에 대해 소개하여 새로운 악성코드를 탐지하는 기술에 대해서 제안한다. 또한, 악성코드를 탐지한다는 것은, 기기에서 실행 가능한 파일의 개수는 무수히 많으 므로, 지도학습 방식(Supervisor Learning)으로는 분명한 한계가 존재한다. 그렇기 때문에, 준지도 학습으로 알려진 SCAE(Stacked Convolution AutoEncoder)를 활용한다, 파일들의 바이트 정보들을 추출하여, 이미지화를 진행하고, 이 이미지들을 학습을 시켜, 학습 시키지 않은 10,869개의 악성코드, 3,442개의 비악성코드를 모델에 추론한 결과 정확 도를 98.84%을 달성하였다.
목차
Abstract
Ⅰ. 서론
Ⅱ. 관련 연구
1. 악성코드 정적 분석
2. 악성코드 동적 분석
3. 악성코드 이미지화 분석
Ⅲ. 연구 핵심 기법
1. 연구 주요 모델
2. SCAE 모델 구축
3. 이미지 유사도 계산
4. 계산 기법
Ⅳ. 데이터 전처리 및 수집
1. 악성코드 데이터 셋 전처리
2. 비악성코드 데이터 수집
Ⅴ. 실험 결과
Ⅵ. 결론
References