earticle

논문검색

지역밀착 거래 플랫폼의 제품판매정보 텍스트 분류를 활용한 개인정보 예측에 관한 연구

원문정보

Model for Predicting Personal Information Exposure Using Text Classification of Product Sales Information on a Hyper-Local Transaction Platform

서상윤

피인용수 : 0(자료제공 : 네이버학술정보)

초록

영어

This study aims to develop a model for diagnosing the risk of personal information exposure among users of hyper-local product transaction services. The research focuses on predicting and classifying gender information and marital status through text analysis by securing a dataset of sales posts. To achieve this, the sales post dataset was collected, and labeling for gender and marital status was performed. Latent Dirichlet Allocation (LDA) topic analysis was then used to classify the types of sales posts and identify their characteristics. Finally, a Naive Bayes model was developed to diagnose the risk of gender and marital information exposure. The data was scraped from posts on a hyper-local transaction service platform and analyzed using various packages in the R programming language for web scraping, topic analysis, and Naive Bayes analysis. The LDA topic analysis revealed that certain words frequently appeared in sales posts based on product type, allowing for the estimation of the seller's gender and marital status. Using this information, a Naive Bayes model was developed to predict the risk of exposure of the seller's gender and marital status, with a gender prediction accuracy of 74.6% and a marital status prediction accuracy of 95%. The results of this study are expected to contribute to safer transactions by identifying product types and words with high personal information exposure risk.

한국어

본 연구는 지역밀착 제품 거래서비스 이용자들의 개인정보 노출 위험을 진단하는 모형을 개발하는 것 을 목표로 수행되었다. 연구는 개인정보 노출 위험을 예측하기 위해 판매 게시글 데이터 세트를 확보 하고, 성별 정보와 혼인여부를 텍스트 분석을 통해 예측 및 분류하는 것을 중심으로 진행되었다. 이를 위해 판매글 데이터 세트를 확보하고, 성별 및 혼인여부에 대한 라벨링 작업을 수행하였다. 그리고 LDA 토픽 분석을 통해 판매글의 유형을 분류하고 그 특성을 개발하였다. 데이터는 지역밀착 거래서비 스 플랫폼에 게시된 글을 스크랩핑하여 수집되었으며, LDA 토픽 분석 결과, 제품 유형에 따라 판매자 의 성별 및 혼인여부를 추정할 수 있는 단어들이 자주 등장하는 것을 발견하였다. 이를 바탕으로 나이 브베이즈 모형을 개발하여 판매자의 성별 및 혼인여부 노출 위험을 예측한 결과, 성별 예측 정확도는 74.6%, 혼인여부 예측 정확도는 95%로 나타났다. 연구 결과는 개인정보 노출 위험이 높은 제품 유형 과 단어들을 식별하여 사용자들의 안전한 거래를 돕는 데 기여할 것으로 보인다.

목차

Ⅰ. 서 론
Ⅱ. 이론적 고찰
1. 지역기반 거래 서비스와 개인정보 노출위험
2. 텍스트 마이닝
3. LDA(Latent Dirichlet Allocation)
4. Naive Bayes Classification
Ⅲ. 연구방법
1. 연구내용
2. 연구방법
Ⅳ. 분석결과
1. 자료수집
2. 데이터 전처리
3. LDA 토픽분석
Ⅴ. 분석결과
1. 연구결과의 요약
2. 연구의 시사점 및 향후 연구방향
참고문헌
Abstract

저자정보

  • 서상윤 Sang Yun Seo. 경남대학교 경영학부 조교수

참고문헌

자료제공 : 네이버학술정보

    함께 이용한 논문

      ※ 기관로그인 시 무료 이용이 가능합니다.

      • 4,800원

      0개의 논문이 장바구니에 담겼습니다.