정교한 데이터 분류를 위한 방법론의 고찰

김승재; 김성환

정교한 데이터 분류를 위한 방법론의 고찰

원문정보

A Review of the Methodology for Sophisticated Data Classification

김승재, 김성환

조선대학교 기초과학연구원 통합자연과학논문집(구 조선자연과학논문집) 제14권 1호 2021.03 pp.27-34

피인용수 : 0건 (자료제공 : 네이버학술정보)

초록

한국어

전 세계적으로 인공지능(AI)을 구현하려는 움직임이 많아지고 있다. AI구현에서는 많은 양의 데이터, 목적에 맞는 데이터의 분류 등 데이터의 중요성을 뺄 수 없다. 이러한 데이터를 생성하고 가공하는 기술에는 사물인 터넷(IOT)과 빅데이터(Big-data) 분석이 있으며 4차 산업을 이끌어 가는 원동력이라 할 수 있다. 또한 이러한 기술은 국가와 개인 차원에서 많이 활용되고 있으며, 특히나 특정분야에 집결되는 데이터를 기준으로 빅데이 터 분석에 활용함으로써 새로운 모델을 발견하고, 그 모델로 새로운 값을 추론하고 예측함으로써 미래비전을 제시하려는 시도가 많아지고 있는 추세이다. 데이터 분석을 통한 결론은 데이터가 가지고 있는 정보의 정확성 에 따라 많은 변화를 가져올 수 있으며, 그 변화에 따라 잘못된 결과를 발생시킬 수도 있다. 이렇듯 데이터의 분석은 데이터가 가지는 정보 또는 분석 목적에 맞는 데이터 분류가 매우 중요하다는 것을 알 수 있다. 또한 빅데이터 분석결과 통계량의 신뢰성과 정교함을 얻기 위해서는 각 변수의 의미와 변수들 간의 상관관계, 다중 공선성 등을 고려하여 분석해야 한다. 즉, 빅데이터 분석에 앞서 분석목적에 맞도록 데이터의 분류가 잘 이루 어지도록 해야 한다. 이에 본 고찰에서는 AI기술을 구현하는 머신러닝(machine learning, ML) 기법에 속하는 분류분석(classification analysis, CA) 중 의사결정트리(decision tree, DT)기법, 랜덤포레스트(random forest, RF) 기법, 선형분류분석(linear discriminant analysis, LDA), 이차선형분류분석(quadratic discriminant analysis, QDA)을 이용하여 데이터를 분류한 후 데이터의 분류정도를 평가함으로써 데이터의 분류 분석률 향상을 위한 방안을 모색하려 한다.

요약
1. 서론
2. 분류분석
2.1 의사결정트리(DT)
2.2 랜덤포레스트(Random Forest)
2.3 판별분석(Discriminant Analysis)
3. 분류분석 실험
3.1 실험대상 및 실험방법
3.2 의사결정트리를 이용한 분류분석
3.3 랜덤포레스트를 이용한 분류분석
3.4 LDA를 이용한 판별분석
3.5 QDA를 이용한 판별분석
4. 결론
참고문헌

키워드

저자정보

김승재 Seung Jae Kim. 호남대학교
김성환 Sung Hwan Kim. 조선대학교

참고문헌

자료제공 : 네이버학술정보

함께 이용한 논문

※ 기관로그인 시 무료 이용이 가능합니다.

4,000원

0개의 논문이 장바구니에 담겼습니다.

earticle