

서로 다른 문장 구조의 병렬 말뭉치 통합을 통한 기계번역 모델 품질의 향상


Improvement of Machine Translation Model Quality through Integration of Parallel Corpora with Different Sentence Structures

김호경, 김건우, 최근호

피인용수 : 0(자료제공 : 네이버학술정보)



Recent advances in AI technology have rapidly made it relatively easy for the public to develop translation systems that were previously difficult to create. Generally, increasing the amount of training data has tended to improve translation quality. However, machine translation models trained on news data do not show significant improvements in translation model quality even when additional news data is used for training, due to the unstructured nature of news data. In this study, we aimed to enhance translation quality by supplementing training data with patent data that has structured sentence patterns to address these structural limitations of news data. Research on improving machine translation quality by combining training data with various sentence structures is not extensively conducted, with most focusing on minimizing the quality or error rate of the training data itself. To address this, we generated various translation models by adjusting the ratio of news training data with structured patent training data and analyzed the quality changes of the generated translation models. Experimental results showed that the model trained with a 2:8 ratio of news data to patent data exhibited the highest quality, demonstrating a 66.7% improvement compared to models trained only on news data.


최근 AI 기술이 빠르게 발전하면서 이전에는 개발하기 어려웠던 번역기를 민간에서도 비교적 쉽게 만들 수 있게 되었고, 일반적으로 학습 데이터의 양을 늘릴 경우 번역 품질은 향상되는 경향을 보였다. 하지만 뉴스 데이터로 학습된 기계번역 모델은 동일한 뉴스 데이터를 추가 학습해도 정형화되어 있지 않은 뉴스 데이터의 특성으로 인해 번역 모델의 품질 향상 폭이 크지 않다. 이에 본 연구에서는 이러한 뉴스 데이터가 가진 구조적 한계점을 보완하기 위해 정형화된 문장 구조를 가진 특허 데이터를 기계학습 시 학습 데이터에 추가하여 번역 품질을 향상시키고자 하였다. 현재 다양한 문장 구조를 가진 학습 데이터를 조합하여 기계번역 품질을 향상시키는 연구는 많이 이루어지지 않았으며, 대부분의 연구는 학습 데이터 자체의 품질이나 오류율을 최소화하는 데 중점을 두고 있다. 이를 위해 본 연구는 다양한 문장 구조를 가진 뉴스 학습 데이터와 정형화된 문장 구조를 가진 특허 학습 데이터의 비율을 조정하여 다양한 번역 모델을 생성하였고, 생성된 번역 모델의 품질 변화에 대한 분석을 수행하였다. 실험 결과, 뉴스 데이터와 특허 데이터의 비율을 2:8로 조정한 학습 데이터로 생성한 모델의 품질이 가장 좋게 나타났으며, 뉴스 데이터로만 학습한 모델 대비 66.7% 높은 품질을 보이는 것으로 나타났다.


Ⅰ. 서론
Ⅱ. 관련 연구
2.1 RBMT(Rule-Based Machine Translation, 규칙기반 기계번역)
2.2 SMT(Statistical Machine Translation, 통계기반 기계번역)
2.3 NMT(Neural machine translation, 인공신경망 기계번역)
2.4 트랜스포머(Transformer)
2.5 OpenNMT
2.6 국내 기계번역 품질 연구
Ⅲ. 연구 방법
3.1 한-영 병렬 말뭉치 데이터 준비
3.2 실험 방법
Ⅳ. 실험 및 실험결과
4.1 학습 데이터 셋
4.2 기계번역 품질 평가 방법
4.3 기계학습 실험
4.4 실험 결과
Ⅴ. 결론


  • 김호경 Hokyoung Kim. 국립한밭대학교 일반대학원 경영학과 박사과정
  • 김건우 Gunwoo Kim. 국립한밭대학교 융합경영학과 교수
  • 최근호 Keunho Choi. 국립한밭대학교 융합경영학과 부교수


