초록 열기/닫기 버튼

인터넷 환경의 발전으로 SNS, 검색 포털사이트, 각종 인터넷 매체들이 비정형 데이터들을 생산하기 시작했다. 또한 정보기술의 발전함에 따라 저장매체의 급격한 가격하락으로 쉽게 저장 디스크를 구할 수 있게 되었다. 이로 인해 큰 저장 디스크에 기존의 정형 데이터와 비정형 데이터들을 수집 후 분석 및 활용 그리고 예측까지 가능한 빅데이터 시대가 도래 했다. 다양하게 수집된 데이터들은 여러 분야에 활용된다. 유통, 마케팅부터 의료까지 데이터들이 활용되며, 누적된 데이터가 다양할수록 예측 가능한 확률에 대한 신뢰성이 높아지고 가치도 높아진다고 판단된다. 또한 최근에는 충분한 저장 디스크의 유통으로 인해 같은 데이터를 얼마나 빠르고 정확하게 분석할 수 있는가를 중요하게 인식하고 있다. 이를 위해 각 기업과 단체에서는 다양한 분석 도구들을 개발하고 있지만, 대량의 데이터를 분석할 때 이를 처리하는 분석 도구의 성능은 중요하게 고려되지 않고 있다. 대표적인 분석도구 소프트웨어로 상용 소프트웨어에는 SPSS, 오픈소스 소프트웨어에는 R이 있지만, 두 분석 도구의 성능에 관한 연구는 부족하다고 판단되어 본 논문에서는 대량 데이터를 다변량 분석을 통하여 상용 소프트웨어와 오픈소스 분석 도구의 성능을 비교하고, 상용 소프트웨어와 오픈소스 분석 도구를 대상으로 대량 데이터의 다변량 분석을 통해 데이터 분석 성능을 비교하고 보다 유용한 분석 도구의 선정에 도움을 제공하고자 한다.


With the development of the Internet environment, SNS, search portal sites and various internet media have started to produce unstructured data. In addition, as the information technology developed, the storage disk can be easily obtained by the sudden price drop of the storage medium. This has led to the era of big data that can collect, analyze, utilize and predict existing structured data and unstructured data on a large storage disk. The various collected data are used in various fields. Distribution, and marketing to medical services. As the accumulated data is diversified, the reliability of the predictable probability increases and the value of the data increases. Recently, it is important to understand how fast and accurate the same data can be analyzed due to the distribution of enough storage disks. For this purpose, each company and organization develops various analysis tools, but the performance of analytical tools that handle them when analyzing large amounts of data is not considered important. As a representative analysis tool software, there are SPSS for commercial software and R for open source software. However, research on the performance of both analysis tools is lacking. In this paper, we aim to compare data analysis performance through multivariate analysis of mass data for commercial software and open source analysis tool, and to help selection of more useful analysis tools.