earticle

논문검색

LLM 학습 데이터의 한국어 유해표현 검출 체계 연구

원문정보

Detection System for Harmful Expressions in Korean LLM Training Data

조용현, 임춘성, 이성웅

피인용수 : 0(자료제공 : 네이버학술정보)

초록

영어

This study proposes a two-stage detection system for the pre-hoc filtering of harmful expressions in Korean LLM training data and validates its effectiveness using related datasets. Harmful expressions were defined into 11 categories (insult, profanity, sexism, obscenity, racial/region, disability, age, religion, political ideology, occupation, and violence/crime). Public Korean corpora were collected and preprocessed through deduplication, normalization, and quality filtering, while preserving multi-label annotations to capture contextual and implicit harms. The final corpus consisted of 200,000 sentences (100,000 harmful and 100,000 non-harmful). In Stage 1, a binary classifier rapidly distinguished harmful from non-harmful sentences, while Stage 2 performed fine-grained multi-label classification across the 11 categories using KoGPT-2, KrMedium (KR-BERT), KoELECTRA, and KcELECTRA. Experimental results showed that all models achieved F1-scores above 0.99 in Stage 1, and that KcELECTRA outperformed the others in Stage 2 with a micro-F1 of 0.8291 and ROC-AUC of 0.9122. In conclusion, this study proposed a detection framework for harmful expressions in Korean and validated its effectiveness through experiments.

한국어

본 논문에서는 LLM 학습 데이터에서 한국어 유해표현을 사전에 정화하기 위해 2단계 검출 체계를 제안 하고, 관련 데이터를 활용하여 유효성 검증을 진행하였다. 유해표현은 11개 카테고리(모욕, 욕설, 외설, 폭력범죄조 장, 성혐오, 연령차별, 인종·지역 차별, 장애, 종교, 정치성향, 직업비하)로 정의하고, 데이터는 공개 한국어 코퍼스 에서 수집하여 중복 제거, 정규화, 품질필터를 거쳐 전처리했으며, 다중레이블 분류를 통해 맥락적/암시적 유해를 포착할 수 있도록 구성하였다. 최종 코퍼스는 총 20만 문장(유해 10만/비유해(정상) 10만)으로 구성하였다. 유해표 현 검출 1단계는 이진 탐지로 유해/비유해 문장을 빠르게 식별하고, 2단계에서는 11개 범주 다중레이블 분류로 정 밀 판별한다(모델: KoGPT-2, KrMedium(KR-BERT), KoELECTRA, KcELECTRA). 실험결과 1단계는 모든 모 델에서 F1-score가 0.99 이상의 매우 높은 성능을 나타냈고, 2단계는 KcELECTRA가 micro-F1 0.8291, ROC‑AUC 0.9122로 다른 모델 대비 높은 성능을 나타냈다. 결론적으로, 본 연구는 한국어 유해표현에 대한 유해표현 검출 체계를 제시하고, 실험을 통해서 효과를 검증하였다.

목차

요약
Abstract
Ⅰ. 서론
Ⅱ. 이론적 배경 및 선행연구
2.1 유해표현 연구 동향
2.2 한국어 유해표현 연구
Ⅲ. 연구방법
3.1 유해표현 정의 및 분류
3.2 데이터셋 구축
3.3 유해표현 모델
Ⅳ. 실험 및 평가
4.1 실험개요
4.2 성능지표 측정
4.3 결과
Ⅴ. 결론 및 향후 계획
5.1 결론
5.2 제언 및 기대효과
5.3 연구 한계점 및 후속연구
REFERENCES

저자정보

  • 조용현 Yong Hyun Jo. 연세대학교 기술정책협동과정 박사과정
  • 임춘성 Choon Seong Leem. 연세대학교 산업공학과 교수
  • 이성웅 Seong Woong Lee. 연세대학교 기술정책 박사

참고문헌

자료제공 : 네이버학술정보

    함께 이용한 논문

      ※ 기관로그인 시 무료 이용이 가능합니다.

      • 4,300원

      0개의 논문이 장바구니에 담겼습니다.