earticle

논문검색

Back TranScription(BTS)기반 데이터 구축 검증 연구

원문정보

A Study on Verification of Back TranScription(BTS)-based Data Construction

박찬준, 서재형, 이설화, 문현석, 어수경, 임희석

피인용수 : 0(자료제공 : 네이버학술정보)

초록

영어

Recently, the use of speech-based interfaces is increasing as a means for human-computer interaction (HCI). Accordingly, interest in post-processors for correcting errors in speech recognition results is also increasing. However, a lot of human-labor is required for data construction. in order to manufacture a sequence to sequence (S2S) based speech recognition post-processor. To this end, to alleviate the limitations of the existing construction methodology, a new data construction method called Back TranScription (BTS) was proposed. BTS refers to a technology that combines TTS and STT technology to create a pseudo parallel corpus. This methodology eliminates the role of a phonetic transcriptor and can automatically generate vast amounts of training data, saving the cost. This paper verified through experiments that data should be constructed in consideration of text style and domain rather than constructing data without any criteria by extending the existing BTS research.

한국어

최근 인간과 컴퓨터의 상호작용(HCI)을 위한 수단으로 음성기반 인터페이스의 사용률이 높아지고 있다. 이에 음성인식 결과에 오류를 교정하기 위한 후처리기에 대한 관심 또한 높아지고 있다. 그러나 sequence to sequence(S2S)기반의 음성인식 후처리기를 제작하기 위해서는 데이터 구축을 위해 human-labor가 많이 소요된다. 최근 기존의 구축 방법론의 한계를 완화하기 위하여 음성인식 후처리기를 위한 새로운 데이터 구축 방법론인 Back TranScription(BTS)이 제안되었다. BTS란 TTS와 STT 기술을 결합하여 pseudo parallel corpus를 생성하는 기술을 의미한다. 해당 방법론은 전사자(phonetic transcriptor)의 역할을 없애고 방대한 양의 학습 데이터를 자동으로 생성 할 수 있기에 데이터 구축에 있어서 시간과 비용을 단축할 수 있다. 본 논문은 기존의 BTS 연구를 확장하여 어떠한 기준 없이 데이터를 구축하는 것보다 어투와 도메인을 고려하여 데이터 구축을 해야함을 실험을 통해 검증을 진행하였다.

목차

요약
Abstract
1. 서론
2. 음성인식 후처리기 연구
3. 음성인식 서비스의 4대 한계점
4. Back TranScription(BTS) 이란?
5. 실험 및 실험결과
5.1 데이터
5.2 모델
5.3 도메인을 고려한 실험
5.4 어투를 고려한 실험
6. 결론
REFERENCES

저자정보

  • 박찬준 Chanjun Park. 고려대학교 컴퓨터학과 석·박사통합과정
  • 서재형 Jaehyung Seo. 고려대학교 컴퓨터학과 석·박사통합과정
  • 이설화 Seolhwa Lee. 고려대학교 컴퓨터학과 석·박사통합과정
  • 문현석 Hyeonseok Moon. 고려대학교 컴퓨터학과 석·박사통합과정
  • 어수경 Sugyeong Eo. 고려대학교 컴퓨터학과 석·박사통합과정
  • 임희석 Heuiseok Lim. 고려대학교 컴퓨터학과 교수

참고문헌

자료제공 : 네이버학술정보

    함께 이용한 논문

      ※ 기관로그인 시 무료 이용이 가능합니다.

      • 4,000원

      0개의 논문이 장바구니에 담겼습니다.