문학 텍스트를 활용한 머신러닝 언어모델 구현

전현구; 정기철; 권경아; 이인성

문학 텍스트를 활용한 머신러닝 언어모델 구현

원문정보

Machine Learning Language Model Implementation Using Literary Texts

전현구, 정기철, 권경아, 이인성

국제문화기술진흥원 The Journal of the Convergence on Culture Technology (JCCT) Vol.7 No.2 2021.05 pp.427-436 KCI 등재

피인용수 : 0건 (자료제공 : 네이버학술정보)

초록

영어

The purpose of this study is to implement a machine learning language model that learns literary texts. Literary texts have an important characteristic that pairs of question-and-answer are not frequently clearly distinguished. Also, literary texts consist of pronouns, figurative expressions, soliloquies, etc. They hinder the necessity of machine learning using literary texts by making it difficult to learn algorithms. Algorithms that learn literary texts can show more human-friendly interactions than algorithms that learn general sentences. For this goal, this paper proposes three text correction tasks that must be preceded in researches using literary texts for machine learning language model: pronoun processing, dialogue pair expansion, and data amplification. Learning data for artificial intelligence should have clear meanings to facilitate machine learning and to ensure high effectiveness. The introduction of special genres of texts such as literature into natural language processing research is expected not only to expand the learning area of m achine learning, but to show a new language learning method.

한국어

본 연구의 목적은 문학 텍스트를 학습한 머신 러닝 언어 모델을 구현하는데 있다. 문학 텍스트는 일상 대화문 처럼 질문에 대한 답변이 분명하게 구분되지 않을 때가 많고 대명사와 비유적 표현, 지문, 독백 등으로 다양하게 구 성되어 있다는 특징이 있다. 이런 점들이 알고리즘의 학습을 용이하지 않게 하여 문학 텍스트를 활용하는 기계 학습 의 필요성을 저해시킨다. 문학 텍스트를 학습한 알고리즘이 일반 문장을 학습한 알고리즘에 비해 좀 더 인간 친화적 인 상호작용을 보일 가능성이 높다. 본 논문은 ‘문학 텍스트를 학습한 머신 러닝 언어 모델 구현’에 관한 연구로서, 대화형 기계 학습에 문학 텍스트를 활용하는 연구에서 필수적으로 선행되어야 할 세 가지 텍스트 보정 작업을 제안 한다: 대명사 처리, 대화쌍 늘리기, 데이터 증폭 등에 대한 내용으로 기계 학습이 용이하고 그 효과도 높다고 판단됩 니다. 인공지능을 위한 학습용 데이터는 그 의미가 명료해야 기계 학습이 용이하고 그 효과도 높게 나타난다. 문학과 같은 특수한 장르의 텍스트를 자연어 처리 연구에 도입하는 것은 새로운 언어 학습 방식의 제안과 함께 머신 러닝의 학습 영역도 확장시켜 줄 것이다.

요약
Abstract
Ⅰ. 서론
Ⅱ. 관련 연구
Ⅲ. 원문 텍스트 보정 작업
1. 등장인물을 기준으로 질문-답변 구성
2. 텍스트를 기준으로 질문-답변 구성
3. 특정 캐릭터의 대화문만 추출한 경우
Ⅳ. 학습 과정
1. Seq2Seq 모델 학습
2. GPT-2 모델 학습
V. 결과 및 평가
1. Seq2Seq 학습 결과
2. GPT-2 학습 결과
VI. 결론 및 향후 연구
References

키워드

저자정보

전현구 Hyeongu Jeon. 준회원, 숭실대학교 글로벌미디어학부
정기철 Kichul Jung. 정회원, 숭실대학교 글로벌미디어학부
권경아 Kyoungah Kwon. 정회원, 숭실대학교 글로벌미디어학부
이인성 Insung Lee. 정회원, 숭실대학교 영어영문학과

참고문헌

자료제공 : 네이버학술정보

함께 이용한 논문

※ 원문제공기관과의 협약기간이 종료되어 열람이 제한될 수 있습니다.

0개의 논문이 장바구니에 담겼습니다.

earticle