초록 열기/닫기 버튼

본고에서는 유사 문장 말뭉치를 대상으로 자동시스템과 사람의 유사도 인식 결과를 대조·분석하였다. 자동시스템과 사람의 유사도 인식 불일치 결과를 주로 다뤘는데, 그 이유는 이러한 연구를 통해 컴퓨터와 인간이 문장을 이해 하는 방식이 서로 어떻게 다른가를 보기 위함이었다. 이러한 연구는 추후 구축될 유사 문장 말뭉치와 유사 문장 자동처리시스템 개발에 활용할 수 있다. 본 연구는 한국전자통신연구원의 유사 문장 학습 데이터 구축 결과를 활용하였고, 구축 과정에 적용한 유사도 판단을 위한 기준에 관한 검토를 진행하였다. 6개 구간의 점수대로 유사도 문장 쌍의 점수 값을 부여하였고, 3점 이상의 문장은 유사 문장에 해당된다. 주로 유사 문장의 경계에 놓인 문장 쌍들이 컴퓨터와 인간의 유사도 판단의 차이가 있는 지점임을 알 수 있었다. 자동시스템에서는 유사 문장으로 판단하지만 사람은 유사 문장이 아니라고 판단 한 예들을 중심으로 살펴 보았다. 이 결과를 통해 기초 작업에서 모호성이 짙었던 유사도 판단 기준을 구체화 하였으며, 이를 추후 연구에 반영하고자 한다.


This paper analyzed the corpus of similar sentences and compared the results of the computer system and manual work. In order to analyze how computers and humans understand the meaning of sentences differently, the results of inconsistency between humans and automatic systems for recognizing similarity were mainly analyzed. This paper utilized the results of constructing similar sentences learning data of the Electronics and Telecommunications Research Institute(ETRI). Here, the similarity criteria applied in the process of constructing language data for the ETRI project were reviewed. A similarity score was given by dividing into 6 sections, and sentences with a score of 3 or more are similar sentences. In Chapter 2, the definition of linguistic similar sentences was presented, and similar sentences types were classified. In addition, sentences surveyed in the actual corpus were also presented. Chapter 3 introduced the process of constructing a corpus of similar sentences. the results of corpus construction were used in this study. In Chapter 4, an example of inconsistency between the results of the automatic system and manual work was analyzed. In addition, I tried to reveal the difference between the automatic system that operates based on rules and the way humans understand sentences. It is hoped that the results of these studies will be utilized in the future development of the automatic processing system for similar sentences and the direction of corpus construction.