earticle

논문검색

기술 융합(TC)

비정형 텍스트 데이터 정제를 위한 불용어 코퍼스의 활용에 관한 연구

원문정보

A Study on the Use of Stopword Corpus for Cleansing Unstructured Text Data

이원조

피인용수 : 0(자료제공 : 네이버학술정보)

초록

영어

In big data analysis, raw text data mostly exists in various unstructured data forms, so it becomes a structured data form that can be analyzed only after undergoing heuristic pre-processing and computer post-processing cleansing. Therefore, in this study, unnecessary elements are purified through pre-processing of the collected raw data in order to apply the wordcloud of R program, which is one of the text data analysis techniques, and stopwords are removed in the post-processing process. Then, a case study of wordcloud analysis was conducted, which calculates the frequency of occurrence of words and expresses words with high frequency as key issues. In this study, to improve the problems of the “nested stopword source code” method, which is the existing stopword processing method, using the word cloud technique of R, we propose the use of “general stopword corpus” and “user-defined stopword corpus” and conduct case analysis. The advantages and disadvantages of the proposed “unstructured data cleansing process model” are comparatively verified and presented, and the practical application of word cloud visualization analysis using the “proposed external corpus cleansing technique” is presented.

한국어

빅데이터 분석에서 원시 텍스트 데이터는 대부분 다양한 비정형 데이터 형태로 존재하기 때문에 휴리스틱 전 처리 정제와 컴퓨터를 이용한 후처리 정제과정을 거쳐야 분석이 가능한 정형 데이터 형태가 된다. 따라서 본 연구에 서는 텍스트 데이터 분석 기법의 하나인 R 프로그램의 워드클라우드를 적용하기 위해서 수집된 원시 데이터 전처리 를 통해 불필요한 요소들을 정제하고 후처리 과정에서 불용어를 제거한다. 그리고 단어들의 출현 빈도수를 계산하고 출현빈도가 높은 단어들을 핵심 이슈들로 표현해 주는 워드클라우드 분석의 사례 연구를 하였다. 이번 연구는 R의 워드클라우드 기법으로 기존의 불용어 처리 방법인 “내포된 불용어 소스코드” 방법의 문제점을 개선하기 위하여 “일 반적인 불용어 코퍼스”와 “사용자 정의 불용어 코퍼스”의 활용 방안을 제안하고 사례 분석을 통해서 제안된 “비정형 데이터 정제과정 모델”의 장단점을 비교 검증하여 제시하고 “제안된 외부 코퍼스 정제기법”을 이용한 워드클라우드 시각화 분석의 실무적용에 대한 효용성을 제시한다.

목차

요약
Abstract
Ⅰ. 서론
Ⅱ. 관련연구
1. 비정형 텍스트 데이터 분석 기술
2. 워드크라우드 분석 기법
3. 한국어 불용어 제거
Ⅲ. 비정형 텍스트 데이터 분석
1. 텍스트 데이터 분석 모델
2. 비정형 텍스트 데이터 수집
3. 비정형 텍스트 데이터 정제
Ⅳ. 워드클라우드 시각화 사례 구현
1. 실무구현 사례
2. 불용어 정제 방법의 장단점 비교평가
3. 워드클라우드 시각화 분석결과
Ⅴ. 결론
References

저자정보

  • 이원조 Won-Jo Lee. 정회원, 울산과학대학교 산업경영공학과 부교수

참고문헌

자료제공 : 네이버학술정보

    함께 이용한 논문

      ※ 기관로그인 시 무료 이용이 가능합니다.

      • 4,000원

      0개의 논문이 장바구니에 담겼습니다.