초록 열기/닫기 버튼

최근 데이터가 급격히 늘어나고 이를 처리할 기술과 수단이 발달함에 따라, 다양한 분야에서 빅데이터와 인공지능을 활용하는 것에 대한 관심이 증가하고 있다. 이러한 맥락에서 범죄의 예방과 수사의 측면에서 적절한 대응을 하기 위해 대용량 비정형 텍스트 데이터 내에서 정보추출(Information Extraction)하는 기술을 활용하는 것도 경찰의 주된 관심사 중 하나이다. 본 연구는 보이스피싱 수법으로 분류된 범죄사실 비정형 텍스트에, 딥러닝 기술의 발달로 최근 정확도가 크게 향상된 자연어 처리의 응용 분야인 개체명 인식(Named Entity Recognition, NER) 모델을 적용하여 사칭기관, 사칭이름, 사칭직급, 범행이용계좌 은행명 등의 정보를 자동으로 추출하는 실험을 수행하였다. 이와 같은 인공지능 기술을 활용한 비정형 텍스트 분석을 통해, 본 연구는 현재 보이스피싱 수사의 피의자 여죄 추적에 즉각적인 도움을 주고자 하였다. 실험을 위해 개체명 인식에 정확도가 높다고 알려진 Bidirectional LSTM-CRF 신경망 모델을 적용한 결과, micro-avg f1 스코어가 88.6%로 도출되고 micro-avg precision 스코어와 micro-avg recall 스코어는 각각 90%, 88%로 나타나, 적은 수의 데이터에 대해서도 높은 정확도로 개체명이 인식되고 있음을 확인하였다. 본 연구는 범죄 수사 분야에서 개체명 인식 모델의 생성을 최초로 제안하였으며, 연구의 결과는 향후 수사 데이터에 대한 정보검색 시스템의 성능 향상과, 챗봇, 질의응답 등 범죄 예방 및 수사 실무에 도움을 줄 것으로 예상되는 여러 자연어 처리 기반 시스템 개발에 필요한 선행연구로 활용될 수 있을 것이다.


With the recent rapid increase in data and the development of technologies and means to deal with it, interest in utilizing big data and artificial intelligence in various fields is increasing. In this context, one of the main concerns of the police is the use of information extraction technology within large unstructured text data to make appropriate responses in terms of crime prevention and investigation. This study carried out an experiment in which information such as fake agencies, names used by impostors, fake positions, and bank name of crime-used accounts was automatically extracted by applying Named Entity Registration(NER) model, which is an application of natural language processing that greatly improved accuracy through the development of deep learning technology. By using this unstructured text analysis using artificial intelligence technology, this study was intended to provide immediate help in tracking down the suspect's other crimes in the voice phishing investigation currently in progress. As a result of applying the Bidirectional LSTM-CRF neural network model, which is known to have high accuracy in named entity recognition for experimentation, the micro-avg f1 score was derived at 88.6%, and the micro-avg precision score and micro-avg recall score were shown at 90% and 88%, respectively, confirming that the entity name was also recognized with high accuracy for a small number of data. This study was the first to propose the creation of an NER model in the field of criminal investigation, and the results of the study could be used as a preliminary study necessary for the development of various natural language processing-based systems that are expected to help crime prevention and investigation practices by improving performance of information retrieval system, chatbot and Q&A for police data in the future.