원문정보
Research on Korean Honorific Error Judgment Using Large Language Model Fine-tuning in Low-Resource Environments : Focusing on the DeepSeek Model
초록
영어
Despite advancements in large language models, empirical studies on language phenomena requiring pragmatic judgment, such as Korean honorifics, remain insufficient. In previous Korean language education research, artificial intelligence has primarily been used as a teaching and learning aid, with few examples actively utilizing it for linguistic judgment tasks. This study experimentally investigates whether fine-tuning large language models can enhance the ability to judge Korean honorific errors. A dataset of over 1,500 instances reflecting Korean honorific error types was created, and fine-tuning was performed on the DeepSeek-1.5B model using 4-bit quantization and LoRA. The training was conducted in a low-resource environment with limited GPU resources, inducing appropriate judgment on honorific use through instruction-based input design. The fine-tuned model achieved an F1-score of 0.66 in honorific error judgment tasks, representing an approximate 34.7% performance improvement compared to the pre-fine-tuned model. This research is a rare empirical study applying large language model fine-tuning to a pragmatic task of honorific error judgment, demonstrating the potential of AI as a research method rather than merely a tool. It also confirms effective performance improvement in low-resource environments, providing foundational data for the fusion of Korean language education research and AI-based linguistic analysis.
한국어
최근 대규모 언어모델의 발전에도 불구하고, 한국어 경어와 같이 화용적 판단이 요구되는 언어 현상을 대상 으로 한 실증 연구는 여전히 부족한 실정이다. 특히 기존 한국어 교육 연구에서 인공지능은 주로 교수·학습 보조 도구로 활용되어 왔으며, 언어학적 판단 과제를 검증하는 연구 방법으로 적극 활용된 사례는 드물다. 이에 본 연구는 대규모 언어모델 미세조정을 통해 한국어 경어 오류 판단 능력을 향상시킬 수 있는지를 실험적으로 검증하는 것을 목적으로 한다. 이를 위해 한국어 경어 오류 유형을 반영한 1,500여 개의 데이터셋을 구축하고, DeepSeek-1.5B 모 델을 대상으로 4-bit 양자화와 LoRA 기반 미세조정을 수행하였다. 모델 학습은 제한된 GPU 자원을 전제로 한 저 자원 환경에서 진행되었으며, instruction 기반 입력 설계를 통해 경어 사용의 적절성 판단을 유도하였다. 실험 결 과, 미세조정된 모델은 경어 오류 판단 과제에서 F1-score 0.66을 기록하였으며, 이는 미세조정 이전 모델 대비 약 34.7% 향상된 성능이다. 본 연구는 한국어 경어 오류 판단이라는 화용 중심 과제에 대규모 언어모델 미세조정을 적 용한 드문 실증 연구로서, AI를 단순한 도구가 아닌 연구 방법으로 활용할 수 있음을 보여준다. 또한 저자원 환경에 서도 효과적인 성능 개선이 가능함을 확인함으로써, 향후 한국어 교육 연구와 AI 기반 언어 분석의 융합적 확장에 기초 자료를 제공한다.
목차
Abstract
Ⅰ. 서론
Ⅱ. 이론적 배경
2.1 한국어 경어 체계와 사회언어학적 특성
2.2 대규모 언어모델과 미세조정
2.3 DeepSeek 모델 선택의 타당성
Ⅲ. 연구 방법
3.1 연구 절차
3.2 경어 오류 데이터 구축
3.3 프롬프트 설계
3.4 모델 미세조정 환경
3.5 추론 및 출력 처리 메커니즘
Ⅳ. 분석 결과
4.1 평가 지표
4.2 전체 성능 결과
Ⅴ. 결론 및 논의
REFERENCES
