earticle

논문검색

Comparative Analysis of Detection Performance of Machine Learning and Deep Learning Models for Countering Zero-Day Phishing Attacks

원문정보

제로데이 피싱 공격 대응을 위한 머신러닝 및 딥러닝 모델의 탐지 성능 비교 분석

Jong-Min Kim

피인용수 : 0(자료제공 : 네이버학술정보)

초록

영어

As internet services proliferate, phishing attacks are becoming increasingly sophisticated and are emerging as a serious security threat that causes the theft of personal information and financial damage. Existing phishing detection systems have primarily relied on blacklist methods such as Google Safe Browsing or PhishTank. While this approach enables the rapid and accurate blocking of known threats, it has a critical limitation in its inability to detect zero-day attacks. To overcome these limitations, this study comparatively analyzed the detection performance of various artificial intelligence models based on the lexical features of URLs. The models selected for the experiment included traditional heuristic algorithms, machine learning models such as Logistic Regression, Support Vector Machine(SVM), and Random Forest, as well as deep learning models like CNN(1D) and LSTM. The experimental results showed that while the heuristic method yielded a poor accuracy of 44.5%, the SVM(RBF kernel) model demonstrated the superior performance, recording an accuracy of 97.0% and an F1-Score of 0.970. In particular, compared to the deep learning models CNN(94.5%) and LSTM(76.4%), SVM demonstrated a fast inference speed of 0.165 seconds, proving it to be the model with the optimal balance between performance and efficiency in a real-time detection environment.

한국어

인터넷 서비스의 확산과 함께 정교해지는 피싱(Phishing) 공격은 개인 정보 탈취 및 금융 피해를 유발하는 심각한 보안 위 협으로 대두되고 있다. 기존의 피싱 탐지 체계는 주로 구글 세이프 브라우징(Google Safe Browsing)이나 피쉬탱크 (PhishTank)와 같은 블랙리스트(Blacklist) 방식에 의존해 왔다. 이 방식은 알려진 위협에 대해서는 신속하고 정확한 차단이 가능하나, 제로데이(Zero-day) 공격을 탐지하지 못하는 치명적인 한계를 가진다. 본 연구에서는 이러한 한계를 극복하기 위해 URL의 어휘적 특징을 기반으로 하는 다양한 인공지능 모델의 탐지 성능을 비교 분석하였다. 실험 대상 모델로는 전통적인 휴 리스틱 알고리즘과 머신러닝 모델인 로지스틱 회귀(Logistic Regression), 서포트 벡터 머신(SVM), 랜덤 포레스트(Random Forest), 그리고 딥러닝 모델인 CNN(1D)과 LSTM을 선정하였다. 실험 결과, 휴리스틱 방식은 44.5%의 저조한 정확도를 보인 반면, SVM(RBF 커널) 모델은 97.0%의 정확도와 0.970의 F1-Score를 기록하며 가장 우수한 성능을 나타냈다. 특히 딥러닝 모 델인 CNN(94.5%)과 LSTM(76.1%) 대비 SVM은 0.165초라는 빠른 추론 속도를 보여 실시간 탐지 환경에서 성능과 효율성의 최적 균형을 갖춘 모델임을 입증하였다.

목차

ABSTRACT
요약
1. Introduction
2. Related Work
2.1 Blacklist and Heuristic-based Detection Studies
2.2 Machine Learning-based Detection Studies
2.3 Deep Learning-based Detection Studies
3. Proposed Method
3.1 Data Collection and Preprocessing
3.2 Feature Engineering
3.3 Model Architecture and Configuration
4. Comparative Analysis and Verification
4.1 Analysis Environment
4.2 Dataset
4.3 Analysis of Results
5. Conclusion
References

저자정보

  • Jong-Min Kim 김종민. 동신대학교 정보보안학과 교수

참고문헌

자료제공 : 네이버학술정보

    함께 이용한 논문

      ※ 기관로그인 시 무료 이용이 가능합니다.

      • 4,000원

      0개의 논문이 장바구니에 담겼습니다.