earticle

논문검색

다국어 Prompt Injection 기반 Jailbreak 취약점 분석 : 영어, 한국어 평어체, 경어체 비교를 중심으로

원문정보

Multilingual Prompt-Injection-Based Jailbreak Vulnerability Analysis : A Comparative Study of English, Korean Plain Speech, and Honorific Style

이지민, 장항배

피인용수 : 0(자료제공 : 네이버학술정보)

초록

영어

The use of large language models (LLMs) is rapidly increasing, and prompt injection and jailbreak attacks are emerging as critical security threats. However, existing studies are predominantly English-centric and research specialized for Korean remains limited. To investigate linguistic vulnerabilities of LLMs, this study compares the attack success rate (ASR) of prompts written in English, plain Korean and honorific Korean. We conduct roleplay, parameter-manipulation, and MAC GCG attacks against both general-purpose and Korean-specialized LLMs. Experimental results show that, across the three attack types and three models, the average ASR for English and plain Korean is approximately 1.5%, while honorific Korean reaches about 2.0%. In particular, under roleplay attacks, the English–Llama combination records an ASR of 19.23%, and the honorific-Korean–kanana combination reaches 10.26%, revealing double-digit vulnerabilities for specific language–model pairs. These findings quantitatively de‘monstrate the security weaknesses of general-purpose LLMs in multilingual settings and suggest that honorific Korean can function as a new vector for bypassing safety alignment. By introducing sociolinguistic factors into LLM security analysis, this study refines safety evaluation criteria for multilingual LLMs and provides empirical evidence to strengthen the security of Korean-language models.

한국어

대규모 언어 모델(LLM)의 활용이 증가하며 Prompt Injection 기법을 악용한 Jailbreak 위협이 대두되고 있다. 그러나, 관련 연구는 영어 중심으로 한국어 특화 연구는 미진하다. 이에 본 연구는 LLM의 언어적 취약점을 탐구하고자, 영어, 한국어 평어 체 그리고 한국어 경어체로 작성된 공격의 성공률(ASR)을 비교 분석하였다. 범용 및 한국어 특화 LLM을 대상으로 Roleplay, Parameter 조작, MAC GCG 공격을 수행하였다. 실험 결과, 세 공격 유형과 세 모델 전반의 평균 ASR은 영어와 한국어 평어 체가 각각 약 1.5%, 한국어 경어체가 약 2.0% 수준이었으며, 특히 Roleplay 공격에서는 영어-Llama 조합이 19.23%, 한국어 경 어체-kanana 조합이 10.26%까지 상승하는 등 특정 언어-모델 조합에서 두 자릿수 취약성이 관찰되었다. 이러한 결과는 범용 LLM의 다국어 환경에서의 보안 취약성을 정량적으로 보여준다. 나아가, 경어체 사용이 LLM의 안전 기준 정렬을 우회하는 새로운 취약점으로 작용할 수 있음을 시사한다. 본 연구는 LLM 보안 분석에 사회언어학적 요소를 도입함으로써 다국어 LLM 의 안전성 검증 기준을 심화하고, 한국어 모델의 보안 강화를 위한 실증적 근거를 제공하는 데 기여할 것이다.

목차

요약
ABSTRACT
1. 서론
2. 선행 연구 분석
2.1 공격 기법 현황
2.2 Roleplay 공격
2.3 Parameter 조작 공격
2.4 MAC GCG 공격
3. 실험 설계 및 방법론
3.1 데이터셋 구성
3.2 모델 선정
3.3 공격 환경 설정
3.4 평가 방법론
4. 실험 결과
4.1 Roleplay 공격
4.2 Parameter 조작 공격
4.3 MAC GCG 공격
5. 결론
참고문헌

저자정보

  • 이지민 Jimin Lee. 중앙대학교 융합보안학과 석사과정
  • 장항배 Hangbae Chang. 중앙대학교 산업보안학과 교수

참고문헌

자료제공 : 네이버학술정보

    함께 이용한 논문

      ※ 기관로그인 시 무료 이용이 가능합니다.

      • 4,500원

      0개의 논문이 장바구니에 담겼습니다.