초록 열기/닫기 버튼

본 연구는 R을 활용한 텍스트 마이닝 및 토픽 분석에 관한 연구로 특정 이슈에 대한 개별 언론사의 보도 양상을 탐구하는데 연구촛점이 있다. 언론사의 성향에 따라 특정 이슈에 대한 보도에 있어 서로 다른 언론사의 보도 양상이 서로 상이함은 물론 동일 언론에 있어서는 지속적으로 같은 보도 양상을 견지할 것으로 예상되는 바, 이를 실증적으로 파악하고 시간을 포함한 외부 요소들로 인한 보도 양상의 변화를 포착하고자 하였다. 이를 위하여 네이버 뉴스 포털(http://news.naver.com)의 키워드, 시간대별, 언론사 카테고리를 이용한 뉴스 검색 기능을 사용하였다. 이를 바탕으로 ‘세월호’를 키워드로 검색한 경향신문, 동아일보, 한겨레신문 3개 언론사의 기사들 중 2014년 4월 16일부터 2017년 3월 25일까지의 기사들을 수집하였다. 기사 수집에는 Python 3.6.1로 작성된 네이버 뉴스 수집기를 사용하였다. 수집된 결과에 대하여 각 언론사별 특정된 기간 내의 ‘세월호’와 관련된 기사들에 대하여 KoNLP를 활용하여 형태소 분석을 수행하였다. 이를 바탕으로 기사들에 사용된 단어의 빈도 분석을 실시하였고 이를 통해 단어 사용에서 드러나는 개별 언론사의 보도 양상과 그 변화를 유추하고자 하였다. 또한 더욱 심층적이고 논리적인 보도 양상 유추를 위하여 LDA 토픽 분석을 수행하였고 그 결과를 제시하였다.


This study is concerned with text mining and topic analysis using R. It tried to understand the tendency of the media to report on a specific topic. According to the political tendency of the media, the coverage of specific topics is expected to be different. It is also expected that media companies with similar political tendencies will continue to show similar reporting tendencies. We try to verify this positively. Therefore, we tried to capture the change of the sidewalk according to external factors including time. To do this, we collected news articles by keyword, time, and media category using the news search function of Naver News Portal (http://news.naver.com). Based on this research, articles from three newspapers including Kyung Hyang Newspaper, Donga Ilbo, and Hankyoreh Newspaper were searched for articles from April 16, 2014 to March 25, 2017. We used a Naver news aggregator written in Python 3.6.1 for article collection. The collected results were analyzed using KoNLP for the articles related to 'Seowall' within the specified period for each journalist. Based on this, we analyzed frequency of words used in articles. Through this study, we tried to deduce the aspect of the news from the use of the word and the change of the news. LDA topic analysis was also performed to obtain more in-depth and logical results. And the results are presented.