원문정보
Adversarial Attack Detection Using a Counterfactual Map Generator
초록
영어
As artificial intelligence (AI) technologies become increasingly applied in various domains such as autonomous driving and medical image analysis, the threat of adversarial attacks is also growing. Adversarial attacks introduce imperceptible perturbations to input data, misleading AI models and causing critical reliability issues in safety-sensitive applications. To address this problem, this study proposes a novel adversarial attack detection method based on a Counterfactual Map Generator(CFMG) built upon the LEAR(Latent Embedding Alignment for Reasoning) framework. The proposed method generates a counterfactual map toward the opposite class direction for a given input image and determines whether the input is adversarial by analyzing the magnitude of the resulting change. Experimental results show that the CFMG produces abnormally large counterfactual maps for adversarial inputs that are shifted outside the model’s training distribution. This finding demonstrates that adversarial attacks can be effectively detected using only the magnitude of the counterfactual map without any additional retraining. The proposed approach is simple, interpretable, and efficient, suggesting its potential applicability as a robust defense mechanism for high-reliability AI systems.
한국어
인공지능 기술이 자율주행, 의료 영상 분석 등 다양한 분야에서 활용되면서, 이에 대한 적대적 공격(adversarial attack)의 위협 또한 증가하고 있다. 적대적 공격은 사람의 눈에는 보이지 않는 미세한 변화를 입력에 추가하여 인 공지능 모델의 출력을 교란시키며, 신뢰성이 중요한 응용 분야에서 심각한 문제를 야기할 수 있다. 이러한 문제를 해결하기 위해 본 연구에서는 LEAR(Learn–Explain–Reinforce) 프레임워크를 기반으로 한 반사실적 변화맵 생성기를 이용한 새로운 적대적 공격 탐지 기법을 제안한다. 제안된 방법은 입력 영상에 대해 반대 클래스 방향의 반사실적 변화맵을 생성하고, 그 변화량의 크기를 분석하여 공격 여부를 판별한다. 실험 결과, 반사실적 변화맵 생 성기는 공격으로 인해 모델의 학습 분포 밖(Out-of-Distribution)으로 이동한 입력에 대해 비정상적으로 큰 반사 실적 변화를 생성함을 확인하였다. 이를 통해 추가적인 재학습 없이도 반사실적 변화맵의 크기만으로 공격을 효과적 으로 탐지할 수 있음을 보였다. 제안된 방법은 단순하면서도 해석 가능성이 높으며, 향후 다양한 고신뢰 인공지능 시스템에서 효율적인 방어 기법으로 활용될 수 있을 것으로 기대된다.
목차
Abstract
1. 서론
2. 관련 연구
2.1 적대적 공격 방어 기법
2.2 생성 모델 기반 탐지 연구
2.3 반사실(Counterfactual) 기반 해석 및 OOD탐지
3. 방법
3.1 반사실적 변화맵 생성기 기반 탐지 개요
3.2 변화 맵의 산출 과정
3.3 Magnitude Norm 기반 탐지 원리
3.4 제안 방법의 특성 및 장점
4. 실험 결과
4.1 실험 환경
4.2 평가 지표
4.3 기존 방법의 정성적 분석
4.4 반사실적 변화맵 기반 기반 탐지 실험 결과
4.5 추론 속도 분석
5. 한계 및 결론
Acknowledgement
참고문헌
