earticle

논문검색

생성형AI 시대의 한국어 데이터를 위한 개인정보 보호 : KcBERT와 Chain-of-Thought 프롬프팅 기반 하이브리드 접근을 중심으로

원문정보

Privacy Protection for Korean Language Data in the Era of Generative AI : A Hybrid Approach Combining KcBERT and Chain-of-Thought Prompting

이태규, 이익희, 이제민, 정수민, 조혜민, 김형진

피인용수 : 0(자료제공 : 네이버학술정보)

초록

영어

The widespread adoption of Large Language Models (LLMs) has elevated privacy protection as a critical technical challenge. Particularly, Korean datasets pose additional difficulties for privacy detection and masking due to their combination of initial, medial, and final consonants, as well as unstructured expressions. This study a hybrid model that reflects the characteristics of Korean datasets by integrating a deep learning-based detection approach, combining KcBERT with Conditional Random Fields (CRF) and Chain-of-Thought (CoT) prompting. In addition, it incorporates regular expression-based and keyword- based detection to enhance accuracy and efficiency. The hybrid model demonstrated strong performance, achieving an average accuracy of 0.99, macro-average precision of 0.96, recall of 0.91, and an F1-score of 0.94, confirming its effectiveness. This research establishes a new benchmark for Korean-specific privacy protection technologies and provides a solid technical foundation for complying with global privacy regulations.

한국어

대규모 언어 모델(Large Language Model, LLM)의 활용이 확산되면서 개인정보 보호 문제가 중요한 기술적 도전 과제로 부상했다. 특히 한국어 데이터셋은 초성, 중성, 종성 결합 구조와 비정형적 표현으로 인해 개인정보 탐지와 마스킹이 더욱 어렵다. 본 연구는 한국어 데이터셋의 특성을 반영하여 KcBERT에 조건부 랜덤 필드(Conditional Random Field)를 결합한 모델과 Chain-of-Thought(CoT) 프롬프팅을 통합한 딥러닝 기반 탐지 모델을 설계하고, 여기에 정규 표현식 및 키워드 기반 탐지를 결합한 하이브리드 모델을 제안한다. 이를 통해 개인정보 탐지 정확도와 효율성을 동시에 개선했다. 하이브리드 모델은 평균 정확도 0.99, 매크로 평균 정확도 0.96, 재현율 0.91, F-1 점수 0.94를 기록하여 그 효과성을 증명하였다. 본 연구는 한국어 특화 개인정보 보호 기술의 새로운 표준을 제시하며, 글로벌 개인정보 보호 규제 준수의 기술적 토대를 마련할 것으로 기대된다.

목차

요약
Ⅰ. 서론
Ⅱ. 문헌연구
2.1 대규모 언어 모델 학습에서의 정보유출 가능성
2.2 개인정보 보호를 위한 마스킹 기법
Ⅲ. 활용 데이터 및 마스킹 구현 방법
3.1 데이터 증강 및 전처리
3.2 KcBERT+CRF 개인정보 탐지 모델
3.3 정규식 탐지 기법
3.4 키워드 기반 탐지
Ⅳ. 모델링 결과
4.1 증강 데이터의 품질
4.2 딥러닝 모델의 성능
4.3 규칙 기반 모델 성능
4.4 하이브리드 모델 성능
Ⅴ. 결론
5.1 학문적 시사점
5.2 실무적 시사점
5.3 연구의 한계 및 추후 연구 방향성
참고문헌
Abstract

저자정보

  • 이태규 Taegyu Lee. 서울시립대학교 전자전기컴퓨터공학부 학부생
  • 이익희 Ikhee Lee. 서울시립대학교 전자전기컴퓨터공학부 학부생
  • 이제민 Jemin Lee. 서울시립대학교 전자전기컴퓨터공학부 학부생
  • 정수민 Soomin Jung. 서울시립대학교 전자전기컴퓨터공학부 학부생
  • 조혜민 Hyemin Cho. 서울시립대학교 전자전기컴퓨터공학부 학부생
  • 김형진 Hyungjin Lukas Kim. 명지대학교 미래융합경영학과 조교수

참고문헌

자료제공 : 네이버학술정보

    함께 이용한 논문

      ※ 기관로그인 시 무료 이용이 가능합니다.

      • 5,800원

      0개의 논문이 장바구니에 담겼습니다.