

문학 텍스트의 머신러닝 활용방안 연구 - 화자 지시어 분석을 위한 규칙 선별을 중심으로 -


A Study on the Application of Machine Learning in Literary Texts - Focusing on Rule Selection for Speaker Directive Analysis -

권경아, 고일주, 이인성

The purpose of this study is to propose rules that can identify the speaker referred by the speaker directive in the text for the realization of a machine learning-based virtual character using a literary text. Through previous studies, we found that when applying literary texts to machine learning, the machine did not properly discriminate the speaker without any specific rules for the analysis of speaker directives such as other names, nicknames, pronouns, and so on. As a way to solve this problem, this study proposes ‘nine rules for finding a speaker indicated by speaker directives (including pronouns)’: location, distance, pronouns, preparatory subject/preparatory object, quotations, number of speakers, non-characters directives, word compound form, dispersion of speaker names. In order to utilize characters within a literary text as virtual ones, the learning text must be presented in a machine-comprehensible way. We expect that the rules suggested in this study will reduce trial and error that may occur when using literary texts for machine learning, and enable smooth learning to produce qualitatively excellent learning results.


본 연구는 문학 텍스트를 활용한 머신러닝 기반 가상 캐릭터(virtual character) 구현을 위해 텍스트 내의 화자 지시어가 지시하는 화자를 판별할 수 있는 규칙을 제안하는 것을 목적한다. 선행 연구에서, 본 연구자는 문학 텍스트 를 기계 학습에 적용할 때, 별칭, 별명, 대명사와 같은 화자 지시어들이 특정한 분석 규칙 없이는 기계가 화자를 제대 로 파악하지 못하여 학습을 제대로 수행할 수 없다는 점을 발견하였다. 본 연구는 이를 해결하는 방법으로 ‘화자 지 시어(대명사 포함)가 지시하는 화자를 찾는 9가지 규칙'을 소개한다: 위치, 거리, 대명사, 가주어/진주어, 인용문, 화자 수, 등장인물 외 지시, 복합 단어 지시, 화자명 분산이 그것이다. 문학 텍스트 내의 등장인물을 가상 캐릭터로 활용하 기 위해서는 기계가 이해할 수 있는 방식으로 학습 텍스트를 제공해야 한다. 본 연구자는 본 논문을 통해 제안한 화 자 찾기 규칙이 문학 텍스트를 머신러닝에 활용할 때 발생할 수 있는 시행착오를 줄이고, 원활한 학습을 수행하게 하 여 질적으로 우수한 학습 결과를 산출할 수 있게 해 줄 것으로 기대한다.


Ⅰ. 서론
Ⅱ. 관련 연구
1. 언어학에서 대명사 연구 관련
2. 정보처리/딥 러닝 관련
Ⅲ. 텍스트 분석
1. 선행 작업 - 별명, 별칭 분류
2. 분석 범위 및 선별 기준 설정
3. 화자 지시어 추출(표본 작업) 및 규칙 분석
4. 규칙 검증(텍스트 확대 분석)
5. 규칙 정리
Ⅳ. 결과 및 평가
1. 규칙별 출현 빈도수 산출
2. 출현 빈도수에 따른 각 규칙별 평가
3. 정리
V. 결론 및 향후 연구


  • 권경아 Kyoungah Kwon. 정회원, 숭실대학교 글로벌미디어학부 강사
  • 고일주 Ilju Ko. 정회원, 숭실대학교 글로벌미디어학부 교수
  • 이인성 Insung Lee. 정회원, 숭실대학교 영어영문학과 교수


