earticle

논문검색

논문

통계적 모델에 기반을 둔 언어모델 적응에 대한 연구

원문정보

A study on language model adaptation based on statistical modeling

이선정

피인용수 : 0(자료제공 : 네이버학술정보)

초록

영어

In this paper, we propose a Korean language model adaptation based on maximum a priori (MAP) estimation. The word-piece model (WPM) based on the statistical characteristic is proposed to use as basic units for language model. And we have compared our proposed MAP adaption algorithm with dynamic marginal adaptation algorithm for our language model adaption as well as language model without adaptation. For this purpose, we have built a baseline language model using 90 million sentences, which yields the perplexity (ppl) of 393.6 when experimental 10 million sentences are used as test sentences in the same domain. In the domain of short message service (SMS), we get the ppl of 673.1 when the language adaptation is not applied. However we can get the ppl of 282.8 after MAP adaption algorithm, the ppl of 338.2 after dynamic marginal adaption algorithm, respectively. And in the domain of video lecture, we get the same trend of performance, in which the ppl of 1340 before language adaptation reduces to the ppl of 219.7 after MAP language adaptation. In conclusion, MAP language adaptation algorithm yields ppl reduction of 28.2 % in the domain of SMS, 44.2 % in the domain of video lecture, respectively.

한국어

본 고에서는 MAP(maximum a priori) 추정에 기반을 둔 한국어 언어모델 적응을 제안한다. 먼저 언어모델을 위 한 기본 단위로 통계적 특징을 이용하는 WPM(word-piece model)을 제안한다. 이를 이용한 언어모델 적응 방법 으로 MAP 적응 알고리즘을 제안하였고 언어모델을 적응하지 않을 경우 및 전통적인 동적 주변 적응 방식과 비교하 였다. 성능 실험을 위해서 먼저 9천만 문장을 사용하여 베이스라인 언어 모델을 구했고 동일한 도메인에서 1천만 문장으로 시험한 결과 복잡도가 393.6 ppl(perplexity)을 구할 수 있었다. 베이스라인 언어 모델을 사용하여 SMS 분야로 시험한 결과가 적응 전 673.1 ppl에서 동적 주변적응을 하였을 경우에는 338.2 ppl, MAP 적응 알 고리즘을 사용한 경우에는 282.8 ppl이 되었다. 또한 동영상 강의 문장을 사용할 경우에도 적응 전에는 1340 ppl 을 보였으나 MAP 알고리즘에 의한 언어 적응 후에는 219.7ppl로 나왔다. 결론적으로 한국어에서 WPM을 기본 단위로 사용하고 MAP 언어모델 적응을 한 경우에는 베이스라인 언어모델의 복잡도보다 SMS, 동영상 각각의 도메 인에서 28.2%, 44.2% 감소되었다.

목차

요약
 Abstract
 1. 서론
 2. 언어모델을 위한 기본 단위 연구
 3. 언어모델 적응 알고리즘
  3.1 모델 보간법( Model Interpolation)을 이용한 적응
  3.2 동적 주변(Dynamic Marginal) 적응
  3.3 MAP 적응
 4. 언어모델 적응 프레임워크
 5. 실험 및 결과 분석
  5.1. 베이스라인 시스템을 위한 코퍼스
  5.2 적응 코퍼스
  5.3 실험 결과
 6. 결론
 참고문헌

저자정보

  • 이선정 Sunjeong Lee. 인천대학교 컴퓨터공학부

참고문헌

자료제공 : 네이버학술정보

    함께 이용한 논문

      0개의 논문이 장바구니에 담겼습니다.