

기획 주제 : 챗GPT시대, 한국어문학의 새로운 지형도

텍스트마이닝을 활용한 ‘호랑이’ 설화의 전승 시기별 지역 간 유사성 분석


A Study on the Similarity of Transmission Trends According to the Period of “Tiger” Tale Transmission Using Text Mining


The present study analyzed the similarities in the transmission trends among 8 regions by dividing the “Tiger” folktales listed in Comprehensive Korean Oral Literature and Complementary Edition of Comprehensive Korean Oral Literature into each compilation. For this purpose, text mining techniques were utilized, involving the following process : data collection → modification and supplementation of regional information and titles of tiger folktales → analysis of regional folktales → visualization. First, we collected title data from 26,542 traditional tales and preprocessed them by identifying regions where administrative divisions were not specified at the province level. Additionally, we replaced titles labeled as ‘horaengi’ (호랭이) or ‘범’ (beom) with ‘tiger’ (호랑이), and for tales involving tiger stories where ‘tiger’ did not appear in the title, we added the word ‘tiger.’ After completing this preprocessing step, we extracted the tiger folktales. Next, we classified these stories by region and divided them according to the Comprehensive Korean Oral Literature and the Complementary Edition of Comprehensive Korean Oral Literature. From this data, we created a corpus consisting only of titles and analyzed the frequency of nouns to extract data. To enable accurate comparison between regions, we normalized the frequency of nouns. Then, using the calculated normalization values, we computed cosine similarity values to compare them between each region, thereby analyzing the similarity in the transmission trends of tiger folktales among different regions according to transmission periods. As a result, at the time of the survey of Comprehensive Korean Oral Literature (1979~1985), it was confirmed that there were many areas where the story of tigers killing people was told with interest, and that local tiger tales were actively passed down, such as the legend of ‘Hwangpaldo’(황팔도) in South Chungcheong. At the same time, in the Chungbuk and Jeonbuk regions, where many folktales of geomancy are passed down, tiger tales have also been spotted showing such characteristics. At this time, the similarity between regions of the tiger tales passed down was found to be quite low in most regions except for North Gyeongsang-South Gyeongsang and North Gyeongsang-South Jeolla. On the other hand, in Complementary Edition of Comprehensive Korean Oral Literature (2008~2018), it was found that ‘Tiger and Dried Persimmon’ were collected in a large proportion in many regions, and in Gyeonggi, Gangwon, and Chungnam regions, the type of ‘Brother and Sister who Became the Sun and Moon’ was also passed down particularly actively. These three regions were found to be regions with a relatively high degree of similarity in the trend of tradition, which is different from the trend of tradition in the survey of Comprehensive Korean Oral Literature. In addition, Gyeongnam, Jeonnam, and North Gyeongsang Province showed more similarity over time, and Jeonbuk and Chungnam emerged as regions with new similarities to Gyeongnam.


본고는 『한국구비문학대계』 『증편 한국구비문학대계』 에 실려 있는 ‘호랑이’ 설화를 각 자료집별로 나누어 8개 지역 간 전승 경향의 유사성을 분석하였다. 이를 위해 텍스트마이닝 기법을 활용하여 ‘데이터 수집→ 지역 정보 및 호랑이 설화 제목 데이터 수정·보완→ 지역 설화 분석→ 시각 화’의 과정을 거쳤다. 먼저 구비설화 26,542편의 제목 데이터를 수집하여 ‘도’ 단위의 행정구 역으로 정리되지 않은 지역 정보를 찾아 전처리하였다. 또한 ‘호랭이’, ‘범’ 으로 표기된 각편 제목을 ‘호랑이’로 바꾸고, ‘호랑이’가 제목에 포함되어 있지 않은 호랑이 이야기를 찾아 ‘호랑이’ 단어를 추가하였다. 이러한 전 처리를 마친 후 ‘호랑이 설화를 추출’하였다. 그런 다음 이를 지역별로 분 류하고 이것을 다시 『한국구비문학대계』 와 『증편 한국구비문학대계』 데이터로 나눴다. 이 데이터로부터 제목만 모아 만든 말뭉치 형태소를 분석 하여 명사별 빈도수를 추출한 데이터를 만들고 지역 간 구연 비중의 정확 한 비교를 위해 빈도수를 정규화하였다. 그런 다음 여기서 산출된 정규화 값으로 코사인 유사도 값을 계산하고 이를 각 지역 간 비교함으로써 호랑이 설화의 지역 간 전승 경향의 유사성을 전승 시기별로 분석하였다. 그 결과 먼저 『한국구비문학대계』 (1979~1985) 조사 당시에는 호식담을 관심 있게 구연하는 지역이 많았으며 충남의 ‘황팔도’ 전설과 같이 지역 고유의 호랑이 설화가 활발하게 전승되고 있음이 확인되었다. 이와 함께 명당설화가 많이 전승되는 충북, 전북지역에서는 호랑이 설화 역시 그러 한 특징을 보이는 유형들이 포착되었다. 이때 전승된 호랑이 설화의 지역 간 유사성은 경북-경남, 경북-전남 외에는 대부분 지역에서 상당히 낮은 것으로 나타났다. 한편 『증편 한국구비문학대계』 (2008~2018)에서는 다수의 지역에서 <호랑이와 곶감>이 많은 비중으로 수집되었으며 경기, 강원, 충남지역에서는 <해와 달이 된 오누이> 유형도 특히 활발하게 전승되고 있음이 확인되었 다. 이들 세 지역은 전승 경향의 유사성이 비교적 높은 지역으로 나타났 는데 이는 『한국구비문학대계』 조사시 매우 이질성을 보인 것과는 달라 진 지점이다. 이외 경남, 전남, 경북은 시간이 흐름에 따라 유사성이 더 높 아졌으며 전북, 충남은 경남과 새롭게 유사성 갖는 지역으로 나타났다.


1. 서론
2. 텍스트마이닝을 활용한 지역 간 유사도 분석 과정
3. ‘호랑이’ 설화의 전승 경향의 지역 간 유사성
3.1. 『한국구비문학대계』
3.2. 『증편 한국구비문학대계』
4. 결론


  • 한유진 Han, Yu-jin. 이화여자대학교, 호크마교양대학 강사


