원문정보
A Study on Unstructured text data Post-processing Methodology using Stopword Thesaurus
초록
영어
Most text data collected through web scraping for artificial intelligence and big data analysis is generally large and unstructured, so a purification process is required for big data analysis. The process becomes structured data that can be analyzed through a heuristic pre-processing refining step and a post-processing machine refining step. Therefore, in this study, in the post-processing machine refining process, the Korean dictionary and the stopword dictionary are used to extract vocabularies for frequency analysis for word cloud analysis. In this process, “user-defined stopwords” are used to efficiently remove stopwords that were not removed. We propose a methodology for applying the “thesaurus” and examine the pros and cons of the proposed refining method through a case analysis using the “user-defined stop word thesaurus” technique proposed to complement the problems of the existing “stop word dictionary” method with R’s word cloud technique. We present comparative verification and suggest the effectiveness of practical application of the proposed methodology.
한국어
인공지능과 빅데이터 분석을 위해 웹 스크래핑으로 수집된 대부분의 텍스트 데이터들은 일반적으로 대용량이 고 비정형이기 때문에 빅데이터 분석을 위해서는 정제과정이 요구된다. 그 과정은 휴리스틱 전처리 정제단계와 후처 리 머시인 정제단계를 통해서 분석이 가능한 정형 데이터가 된다. 따라서 본 연구에서는 후처리 머시인 정제과정에서 한국어 딕셔너리와 불용어 딕셔너리를 이용하여 워드크라우드 분석을 위한 빈도분석을 위해 어휘들을 추출하게 되는 데 이 과정에서 제거되지 않은 불용어를 효율적으로 제거하기 위한 “사용자 정의 불용어 시소러스” 적용에 대한 방 법론을 제안하고 R의 워드클라우드 기법으로 기존의 “불용어 딕셔너리” 방법의 문제점을 보완하기 위해 제안된 “사 용자 정의 불용어 시소러스” 기법을 이용한 사례분석을 통해서 제안된 정제방법의 장단점을 비교 검증하여 제시하고 제안된 방법론의 실무적용에 대한 효용성을 제안한다.
목차
Abstract
Ⅰ. 서론
Ⅱ. 관련연구
1. 머시인러닝(Machine learning)
2. 비정형 텍스트 데이터
Ⅲ. 한국어 텍스트 데이터 분석
1. 한국어 텍스트 데이터 분석 기법
2. 제안 텍스트 데이터 정제모델
3. 텍스트 데이터 전처리 정제
4. 텍스트 데이터 정제과정
5. 정제방법 장단점 비교표
Ⅳ. 워드클라우드 시각화 사례구현
1. 사례구현 방법
2. 사용자 정의 불용어 시소러스의 생성
3. 워드클라우드 시각화 분석결과
4. 시각화 분석결과 해석
Ⅴ. 결론
References