초록 열기/닫기 버튼

이 연구에서는 대규모 언어 자원인 ‘물결21’ 코퍼스로부터 단어들의 공기 정보를 추출, 벡터로 구성하고 이 벡터들 사이의 유사도를 코사인 유사도라는 통계적 척도를 활용하여 계산하였다. 이렇게 추출된 유의어들은 유사한 문맥을 공유한다는 점에서 문맥적 유의어라고 규정할 수 있으며, 이들은 문맥을 공유하는 정도가 유사도에 따라 구별된다. 이와 같이 유의어에 대한 계량적 접근을 통해 한국어 유의어의 총체적인 양상을 파악할 수 있을 뿐 아니라 유의어들 간의 유사도도 제시할 수 있다는 점에서 이 연구는 의의가 있다. 아울러 본 연구의 결과는 유의어의 변별뿐 아니라 한국어 교육이나 유의어 사전 편찬, 그리고 자연어 처리를 위한 인공지능 등에도 적극적으로 활용될 수 있을 것으로 기대한다.


In this paper, we extract and construct the co-occurrence information of words from the large linguistic resource 'Trends 21' corpus into word vectors and calculate the similarity between these vectors using a statistical scale called cosine similarity. These extracted synonyms can be defined as contextual synonyms in that they share the same context, and they will be distinguished by their distance of similarity. This paper is meaningful in that it is not only possible to identify the overall aspect of Korean synonyms through quantitative approaches to synonyms, but also to present similarities between synonyms. In addition, the results of this study are expected to be actively used not only for discrimination of synonyms, but also for Korean language education, dictionary compilation of synonyms, and artificial intelligence for natural language processing.