원문정보
Adversarial Attack Detection With Sampling Consistency Detection
초록
영어
Advances in AI technology are enabling its widespread use in various fields, such as autonomous driving and medical image analysis. However, they are also increasing the threat of adversarial attacks. Adversarial attacks subtly distort the predictions of AI models in ways undetectable to humans, potentially leading to severe consequences, particularly in fields where AI reliability is essential. To address these issues, this research proposes a new method for detecting adversarial attacks using a sampling-based consistency detection technique. By sampling around the input image, the consistency of the classification results is checked to determine whether the input image has been attacked. Experimental results on the MNIST dataset show that the proposed detection method can effectively detect adversarial attacks, achieving a 98% detection rate for C&W attacks.
한국어
인공지능 기술의 발달로 자율주행, 의료 영상 분석 등 다양한 분야에서 인공지능이 널리 활용되고 있지만, 이와 동 시에 적대적 공격에 대한 위협이 점차 증가하고 있다. 적대적 공격은 사람에게는 감지되지 않는 미세한 변화를 통해 인공지능 모델의 예측을 왜곡시키며, 특히 인공지능의 신뢰성이 중요한 분야에서 심각한 문제를 초래할 수 있다. 이 러한 문제를 해결하기 위해, 본 연구에서는 샘플링 기반 일관성 탐지 기법을 활용한 새로운 적대적 공격 탐지 방안 을 제안한다. 입력된 영상의 주변부를 샘플링하여 분류한 결과의 일관성을 확인하고 이를 통해 입력된 영상의 공격 여부를 판단한다. MNIST 데이터 세트에서의 실험을 통해 제안한 탐지 기법이 FGSM, BIM, PGD, DeepFool, C&W 등 다양한 적대적 공격을 성공적으로 탐지할 수 있음을 실험하였고, 특히 C&W 공격에 대해 98%의 탐지 성능을 확인하였다.
목차
Abstract
1. 서론
2. 관련 연구
2.1 적대적 공격 탐지 기법
2.2 생성 모델 기반의 적대적 공격 방어 기법
3. 방법
3.1 샘플링 기반 일관성 탐지 알고리즘
3.2 잠재 공간 공유 모델 학습
4. 실험 결과
5. 한계 및 결론
Acknowledgement
참고문헌
