earticle

논문검색

텍스트 데이터 워드클라우드 분석을 위한 데이터 정제기법에 관한 연구

원문정보

A Study on Data Cleansing Techniques for Word Cloud Analysis of Text Data

이원조

피인용수 : 0(자료제공 : 네이버학술정보)

초록

영어

In Big data visualization analysis of unstructured text data, raw data is mostly large-capacity, and analysis techniques cannot be applied without cleansing it unstructured. Therefore, from the collected raw data, unnecessary data is removed through the first heuristic cleansing process and Stopwords are removed through the second machine cleansing process. Then, the frequency of the vocabulary is calculated, visualized using the word cloud technique, and key issues are extracted and informationalized, and the results are analyzed. In this study, we propose a new Stopword cleansing technique using an external Stopword set (DB) in Python word cloud, and derive the problems and effectiveness of this technique through practical case analysis. And, through this verification result, the utility of the practical application of word cloud analysis applying the proposed cleansing technique is presented.

한국어

비정형 텍스트 데이터의 빅데이터 시각화 분석에서 원시 데이터는 대부분 대용량이고 비정형으로 정제하지 않 고 분석기법을 적용할 수 없는 상태이다. 따라서 수집된 원시 데이터는 1차 휴리스틱 정제과정을 통해서 불필요한 데 이터들을 제거하고 2차 머시인 정제과정을 통해서 불용어를 제거한다. 그리고 어휘의 빈도수를 계산하여 워드클라우 드 기법으로 시각화하고 핵심 이슈들을 추출하여 정보화하고 그 결과를 분석한다. 본 연구에서는 파이썬 워드클라우 드에서 외부 불용어 Set(DB)를 사용한 새로운 불용어 정제기법을 제안하고 실무 사례분석을 통하여 이 기법의 문제 점과 효용성을 도출한다. 그리고 이 검증 결과를 통해 제안된 정제기법을 적용한 워드클라우드 분석의 실무적용에 대 한 효용성을 제시한다.

목차

요약
Abstract
Ⅰ. 서론
Ⅱ. 관련 연구
1. 비정형 텍스트 데이터 분석
2. 워드클라우드(word cloud)
3. 텍스트 데이터 워드클라우드 분석
Ⅲ. 비정형 텍스트 데이터 분석
1. 텍스트 데이터 분석 모델
2. 분석용 텍스트 데이터 수집
3. 파이썬 텍스트 데이터 정제기법
4. 워드클라우드 시각화 사례 구현
5. 워드클라우드 시각화 결과 분석
Ⅳ. 결론
References

저자정보

  • 이원조 Won-Jo Lee. 정회원, 울산과학대학교 산업경영공학과 부교수

참고문헌

자료제공 : 네이버학술정보

    함께 이용한 논문

      ※ 기관로그인 시 무료 이용이 가능합니다.

      • 4,000원

      0개의 논문이 장바구니에 담겼습니다.