번역 생성기와 문장 판별기 기반의 문장 데이터 증강 방법

SangWon Lee; WonIk Choi

Session 2 인공지능

번역 생성기와 문장 판별기 기반의 문장 데이터 증강 방법

원문정보

Sentence Data Augmentation Method based on Translation Generator and Sentence Discriminator

SangWon Lee, WonIk Choi

한국차세대컴퓨팅학회 한국차세대컴퓨팅학회 학술대회 2021 한국차세대컴퓨팅학회 춘계학술대회 2021.05 pp.67-70

피인용수 : 0건 (자료제공 : 네이버학술정보)

초록

한국어

본 논문에서는 번역 생성기 (translation generator)와 문장 판별기 (sentence discriminator) 기반의 문장 데이터 증강 방법을 제안한다. 번역 생성기는 다른 언어로의 반복 번역을 통해 원본 문장과 비슷한 의미를 가진 변형문장을 생성하여 데이터의 수를 늘린다. 하지만 이러한 방식으로 생성된 문장의 일부는 학습에 방해가 된다. 이에 문장 판별기는 학습에 방해되는 문장을 판별하기 위하여 Convolutional Neural Network (CNN)와 Bidirectional Long Short-Term Memory (Bi-LSTM)를 병렬로 병합한 딥러닝 모델로 원본문장을 학습하고 변형문장 중에서 학습에 방해되는 문장을 판별하고 제거하여 데이터 증강 문장을 출력한다. 본 논문의 데이터 증강 방법으로 데이터를 증강한 후 5가지의 딥러닝 모델로 테스트를 진행한 결과, 데이터의 크기에 따라 최대 9.28%의 성능 향상을 보였다.

Abstract
1. Introduction
2. Related Works
3. Proposed Data Augmentation
3.1. Data Set
3.2. 번역 생성기 (Translation Generator)
3.3. 문장 판별기 (Sentence Discriminator)
3.4. 문장 데이터 증강 방법
4. Experiments
4.1. Experimental setup
4.2. 데이터 개수 변화와 데이터 증강 효과
4.3. 전체 데이터를 사용한 증강 실험 결과 비교
5. Conclusions
Acknowledgement
References

키워드

저자정보

SangWon Lee Electrical and Computer Engineering Inha University Incheon, South Korea
WonIk Choi Electrical and Computer Engineering Inha University Incheon, South Korea

참고문헌

자료제공 : 네이버학술정보

함께 이용한 논문

0개의 논문이 장바구니에 담겼습니다.

earticle

번역 생성기와 문장 판별기 기반의 문장 데이터 증강 방법

원문정보

초록

목차

키워드

저자정보

참고문헌

함께 이용한 논문