원문정보
초록
한국어
현대 사회는 사람의 행동 하나가 데이터가 되며 이는 곧 엄청난 데이터의 흐름을 만든다. 20년 전 인터넷 속 전체 데이터의 양이 현대 사회속에서는 1초마다 저장된다. 이러한 추세는 앞으로 더욱 더 심화될 것이며 이러한 빅데이터를 활용하기에 따라서 엄청난 이점을 줄 수 있을 것으로 판단된다. 이러한 데이터의 분석을 위해서는 편향되지 않은 데이터가 필요한데 대부분의 빅데이터는 한쪽으로 편향인 불균형 상태며 이는 분석의 정확도를 떨어뜨리는 원인 중 하나이다. 또한 2종 오류의 비용이 큰 분야에서는 불균형 데이터를 사용한 분석을 믿을 수 없는 실정이기 때문에 이러한 문제점을 해결하는 것은 매우 중요하다. 정형 데이터 분야에서는 이러한 문제점을 해결하기 위해서 전통적인 통계 기법 방식의 오버샘플링이 발전해왔고 비정형 데이터에서는 딥러닝의 발전과 더불어 발전한 생성 모델이 불균형 문제의 해결책으로 떠올랐다. 본 연구에서는 비정형 데이터에서 오버샘플링을 하기 위해 자주 사용하는 생성 모델 중 CycleGAN을 정형 데이터에 맞게 변형시킬 것이다. 또한 GMM을 이용해 혼합 분포를 각각의 단일 분포로 분해하여 CycleGAN이 데이터의 특징을 더 잘 학습하게 만들 것이며 CycleGAN에 Classifier를 추가하여 좀 더 현실적인 데이터를 만드는 오버샘플링 기법을 만들고자 한다. 본 논문에서 제안하고자하는 오버샘플링 기법을 실험하기 위해 실제 금융사기에 관한 데이터를 PCA로 변조하여 개인정보를 가린 불균형 데이터를 사용할 것이다.
목차
Introduction
Related work
통계 기반 샘플링
GAN
Method
Data
Expected Results
References
