공공 한영 병렬 말뭉치를 이용한 기계번역 성능 향상 연구

박찬준; 임희석

기술

공공 한영 병렬 말뭉치를 이용한 기계번역 성능 향상 연구

원문정보

A Study on the Performance Improvement of Machine Translation Using Public Korean-English Parallel Corpus

박찬준, 임희석

한국디지털정책학회 디지털융복합연구 제18권 제6호 2020.06 pp.271-277 KCI 등재

피인용수 : 0건 (자료제공 : 네이버학술정보)

초록

영어

Machine translation refers to software that translates a source language into a target language, and has been actively researching Neural Machine Translation through rule-based and statistical-based machine translation. One of the important factors in the Neural Machine Translation is to extract high quality parallel corpus, which has not been easy to find high quality parallel corpus of Korean language pairs. Recently, the AI HUB of the National Information Society Agency(NIA) unveiled a high-quality 1.6 million sentences Korean-English parallel corpus. This paper attempts to verify the quality of each data through performance comparison with the data published by AI Hub and OpenSubtitles, the most popular Korean-English parallel corpus. As test data, objectivity was secured by using test set published by IWSLT, official test set for Korean-English machine translation. Experimental results show better performance than the existing papers tested with the same test set, and this shows the importance of high quality data.

한국어

기계번역이란 소스언어를 목적언어로 컴퓨터가 번역하는 소프트웨어를 의미하며 규칙기반, 통계기반 기계번역 을 거쳐 최근에는 인공신경망 기반 기계번역에 대한 연구가 활발히 이루어지고 있다. 인공신경망 기계번역에서 중요한 요소 중 하나로 고품질의 병렬 말뭉치를 뽑을 수 있는데 이제까지 한국어 관련 언어쌍의 고품질 병렬 코퍼스를 구하기 쉽지 않은 실정이었다. 최근 한국정보화진흥원의 AI HUB에서 고품질의 160만 문장의 한-영 기계번역 병렬 말뭉치를 공개하였다. 이에 본 논문은 AI HUB에서 공개한 데이터 및 현재까지 가장 많이 쓰인 한-영 병렬 데이터인 OpenSubtitles와 성능 비교를 통해 각각의 데이터의 품질을 검증하고자 한다. 테스트 데이터로 한-영 기계번역 관련 공식 테스트셋인 IWSLT에서 공개한 테스트셋을 이용하여 보다 객관성을 확보하였다. 실험결과 동일한 테스트셋으로 실험한 기존의 한-영 기계번역 관련 논문들보다 좋은 성능을 보임을 알 수 있었으며 이를 통해 고품질 데이터의 중요성 을 알 수 있었다.

요약
Abstract
1. 서론
2. 관련 연구
2.1 규칙기반 기계번역
2.2 통계기반 기계번역
2.3 인공신경망기반 기계번역
2.4 국내 딥러닝 기반 한-영 기계번역 연구
3. 한-영 병렬 말뭉치 공공데이터
4. 실험 및 실험결과
4.1 데이터셋
4.2 학습
4.3 실험 결과
5. 결론
REFERENCES

키워드

저자정보

박찬준 Chanjun Park. 고려대학교 컴퓨터학과 석박사통합과정
임희석 Heuiseok Lim. 고려대학교 컴퓨터학과 교수

참고문헌

자료제공 : 네이버학술정보

함께 이용한 논문

※ 기관로그인 시 무료 이용이 가능합니다.

4,000원

0개의 논문이 장바구니에 담겼습니다.

earticle

공공 한영 병렬 말뭉치를 이용한 기계번역 성능 향상 연구

원문정보

초록

목차

키워드

저자정보

참고문헌

함께 이용한 논문