earticle

논문검색

Research Article

Enhancing Korean–Chinese Legal Translation in Low-Resource Scenarios Using Back Translation and Transfer Learning

원문정보

역번역과 전이학습을 활용한 저자원 환경에서의 한‧중 법률 번역 성능 향상

Yanan Zhang, Gilja So

피인용수 : 0(자료제공 : 네이버학술정보)

초록

영어

Legal translation between Korean and Chinese faces significant challenges due to complex legal terminology, distinct linguistic structures, and the scarcity of high-quality bilingual corpora. This study proposes an approach to improve neural legal translation in low-resource scenarios by integrating back translation-based data augmentation with transfer learning. Specifically, the multilingual pre-trained mBART model is fine-tuned in two stages: initial fine-tuning with authentic Korean–Chinese legal parallel data, followed by enhanced fine-tuning using pseudo-parallel data generated through back translation and enriched with legal terminology annotations. Experiments on domain-specific datasets demonstrate substantial improvements over baseline Transformer and fine-tuned mBART models, achieving a BLEU score of 34.5 and a TER of 0.42. Human evaluation by bilingual legal experts further confirms enhanced fluency, adequacy, and legal consistency. This work not only advances Korean–Chinese legal neural machine translation in low-resource contexts but also discusses legal implications, including accountability, compliance, and the potential of blockchain for translation traceability. The proposed framework provides a practical foundation for developing reliable AI-assisted legal translation systems.

한국어

한국어–중국어 법률 번역은 복잡한 법률 용어, 상이한 언어 구조, 그리고 고품질 이중언어 병렬 말뭉치의 부족으로 인해 많은 도전에 직면해 있다. 본 연구는 역번역 기반 데이터 증강과 전이학습을 결합하여 저자원 환경에서의 신경망 법률 번역 성능을 향상시키는 방법을 제안한다. 구체적으로, 다국어 사전학습 모델인 mBART를 두 단계로 미세조정(fine-tuning)한다. 먼저 실제 한국어–중국어 법률 병렬 데이터를 이용해 초기 미세조정을 수행하고, 이후 역번역을 통해 생성된 의사 병렬 데이터에 법률 용어 주석을 결합하여 추가적인 강화 미세조정을 수행한다. 도메인 특화 데이터셋을 활용한 실험 결과, 제안한 방법은 기본 Transformer 및 단순 미세조정된 mBART 모델 대비 유의미한 성능 향상을 보였으며, BLEU 점수 34.5와 TER 0.42를 달성하였다. 또한 이중언어 법률 전문가에 의한 인간 평가 결과, 번역의 유창성, 적합성 및 법적 일관성이 모두 개선됨이 확인되었다. 본 연구는 저자원 환경에서의 한‧중 법률 신경망 기계번역 성능을 향상시킬 뿐만 아니라, 책임성, 준법성, 그리고 번역 이력 추적을 위한 블록체인 활용 가능성 등 법적·제도적 함의도 함께 논의한다. 제안된 프레임워크는 신뢰할 수 있는 AI 기반 법률 번역 시스템 구축을 위한 실용적인 기반을 제공한다.

목차

요약
ABSTRACT
I. INTRODUCTION
II. Related Work
1. Neural Machine Translation in Low-Resource Settings
2. Data Augmentation Techniques
3. Legal Domain Machine Translation
III. Methodology
1. Dataset Collection and Preparation
2. Model Architecture
3. Fine-tuning Strategy
4. Back Translation and Data Augmentation
5. Evaluation Metrics and Framework
IV. Experiment and Results
1. Experimental Environment
2. Automatic Evaluation Results
3. Human Evaluation Results
4. Error Analysis
V. Discussion
1. Accountability and Risk of Translation Errors
2. Compliance and Certification Requirements
3. Blockchain-based Traceability in Legal Translation
V. Conclusion and Future Work
1. Conclusion
2. Future Work
References

저자정보

  • Yanan Zhang 장아남. Department of Computer and Information Engineering, Youngsan University
  • Gilja So 소길자. Department of Cyber Security, Youngsan University

참고문헌

자료제공 : 네이버학술정보

    함께 이용한 논문

      ※ 기관로그인 시 무료 이용이 가능합니다.

      • 4,500원

      0개의 논문이 장바구니에 담겼습니다.