원문정보
Research on the Development of Named Entity Recognition and De-Identification Techniques for Critical Technical Information to Ensure the Safe Use of Enterprise Generative AI Models
초록
영어
While enterprises and public institutions are actively adopting generative AI technologies to enhance work automation and productivity, the risk of sensitive technical information leakage has also increased. Existing research has primarily focused on measuring personal information re-identification risks and addressing malicious prompts and data poisoning, presenting limitations in real-time response to critical technology leakage issues during business operations. This study proposes a technique-preserving de-identification method to identify and de-identify critical technical information in prompt input documents for the safe utilization of generative AI models in business contexts. Specifically, the approach employs Named Entity Recognition techniques to perform BIO tagging of important technical terms and utilizes few-shot learning to extract key technical terminology. Subsequently, masking, substitution, and tokenization methods are compared and applied. Experimental results on representative patent claims demonstrate high accuracy in technical term recognition through BIO tagging and high semantic similarity between documents before and after de-identification, confirming the effectiveness of preserving original technical information. This research presents a practical solution for safe generative AI utilization, proposing a new paradigm that simultaneously achieves technical information leakage prevention and work quality maintenance, thereby contributing to both industrial and academic advancement. Future research aims to expand the framework to various industrial domains to ensure broader applicability.
한국어
최근 기업 및 공공기관에서 생성형 AI 기술을 적극적으로 도입하여 업무 자동화와 생산성이 향상되는 반면, 민감한 기술 정보 유출 위험도 증가하고 있다. 기존 연구는 개인정보 재식별 위 험 측정이나 악성 프롬프트 및 데이터 오염 대응에 주목하고 있어 업무 시 발생하는 중요기술 유 출 문제를 실시간으로 대응하기에 한계가 존재한다. 본 연구는 업무용 생성형 AI 모델의 안전한 활용을 위해 프롬프트 입력문서 내 중요 기술 정보를 식별하고 비식별처리하는 기술보존 비식별 화 기법을 제안한다. 구체적으로, 개체명 인식 기법으로 중요기술용어를 BIO 태깅하고, 퓨샷 기 반 거대언어모델을 활용하여 핵심 기술어를 추출한다. 이후 k-익명성 기반 기술보존 비식별화를 적용하여, 마스킹·대체어·토큰화와 비교분석한다. 특허 대표청구항을 대상으로 실험한 결과, BIO 태깅을 통한 기술용어 인식 정확도와 비식별화 전후 문서 간 의미론적 유사도가 높게 나타 나 원문 기술 정보 보존 효과를 확인하였다. 본 연구는 생성형 AI의 안전한 활용을 위한 실질적 방안을 제시함으로써, 기술정보 유출 방지와 업무 품질 유지를 동시에 달성할 수 있는 새로운 패 러다임을 제안하여 산업적·학문적 기여를 도모한다. 향후 연구에서는 다양한 산업 도메인에 적 용한 프레임워크로 확장하여 범용성을 확보하고자 한다.
목차
Ⅰ. 서론
Ⅱ. 관련연구
Ⅲ. 제안하는 방법론
Ⅳ. 실험 및 결과
Ⅴ. 논의 및 결론
참고문헌
【Abstract】
