원문정보
Extracting Scheme of Compiler Information using Convolutional Neural Networks in Stripped Binaries
초록
영어
The strip binary is a binary from which debug symbol information has been deleted, and therefore it is difficult to analyze the binary through techniques such as reverse engineering. Traditional binary analysis tools rely on debug symbolic information to analyze binaries, making it difficult to detect or analyze malicious code with features of these strip binaries. In order to solve this problem, the need for a technology capable of effectively extracting the information of the strip binary has emerged. In this paper, focusing on the fact that the byte code of the binary file is generated very differently depending on compiler version, optimazer level, etc. For effective compiler version extraction, the entire byte code is read and imaged as the target of the stripped binaries and this is applied to the convolution neural network. Finally, we achieve an accuracy of 93.5%, and we provide an opportunity to analyze stripped binary more effectively than before.
한국어
스트립 바이너리는 디버그 심볼 정보가 삭제된 바이너리이며, 역공학 등의 기법을 통한 바이너리 분석이 어렵다. 기존의 바이너리 분석 툴은 디버그 심볼 정보에 의존하여 바이너리를 분석하기 때문에 이러한 스트립 바이너리의 특징이 적용된 악성코드를 감지하거나 분석하는데 어려움이 있다. 이러한 문제를 해결하기 위해 스트립 바이너리의 정보를 효과 적으로 추출할 수 있는 기술의 필요성이 대두되었다. 본 논문에서는 바이너리 파일의 바이트 코드가 컴파일러 버전, 최적 화 옵션 등에 따라 매우 상이하게 생성된다는 점에 착안하여 효과적인 컴파일러 버전 추출을 위해 스트립 바이너리 대상 으로, 전체 바이트 코드를 읽어 이미지화 시킨 후 이를 합성곱 신경망에 적용, 정확도 93.5%을 달성하여 스트립 바이너 리를 기존보다 더욱 효과적으로 분석할 수 있는 계기를 제공한다.
목차
Abstract
Ⅰ. 서론
Ⅱ. 관련 연구
1. 함수 시작점 위치 추출
2. 바이너리 분석 도구
Ⅲ. 스트립 바이너리의 특징
Ⅳ. 데이터셋 수집
1. 데이터셋 수집 및 전처리
2. 모델 설계
Ⅴ. 실험 결과
Ⅵ. 결론
References