earticle

논문검색

클러스터링 분석기반의 특성 추출 방법을 적용한 토픽 모델링 : 보험 사고 관련 이슈 도출을 중심으로

초록

한국어

최근 다양한 소셜 네트워크 서비스가 등장함에 따라 서 블로그 등의 소셜 미디어 채널이 사람들 간의 정 보 공유와 커뮤니케이션의 창으로 활발하게 사용되 고 있다. 이로 인해 기하급수적으로 증가하는 대량 의 비정형 데이터가 생성되고 있는데, 특히 텍스트 데이터를 활용하여 사회현상을 분석하고자 하는 연 구들이 점차 증가하고 있다. 본 연구에서는 이슈 분 석, 오피니언 마이닝 및 트렌드 분석 등에 활용되는 토픽 모델링을 이용한 텍스트 마이닝 분석을 실시하 여 보험 사고 관련 주요 이슈를 찾아내고 예방 또는 경보시스템에 활용하기 위한 기반을 마련하고자 한 다. 본 연구에서는 토픽 모델링에 앞서 단어 기반 바이그램(word bigram) 방식과 단어 간 유사도에 기반을 둔 단어 클러스터링(word clustering) 방식 을 적용하여 특성을 추출하고 추출된 의미 정보를 바탕으로 토픽 모델을 구축하여 성과를 비교하였다 는 점에서 의의가 있다고 할 수 있다. 토픽 모델로 는 Correlated Topic Models(CTM)을 사용하였는데, CTM 은 토픽 모델링 연구에 주로 적용되어 오던 Latent Dirichlet Allocation(LDA) 기법의 도출된 토 픽들이 서로 독립적이라는 가정상의 한계를 보완한 기법이다. 단어 기반 바이그램과 단어 클러스터링 으로 추출된 의미정보를 CTM 에 적용하여 토픽 모 델링을 수행한 후 성과를 비교해 본 결과, 단어 클 러스터링 방식으로 특성을 추출하여 도출된 토픽의 설명력이 우수함을 확인 할 수 있었다.

목차

Abstract
 1. 서론
 2. 선행연구
  2.1. 특성 추출에 대한 선행연구
  2.2. 토픽 모델링에 대한 선행연구
 3. 실험설계
  3.1 데이터 및 도구
  3.2 전처리
  3.3 특성 추출(feature generation)
  3.4 특성 선택(feature selection)
  3.5 토픽 모델링
 4. 실험결과
 5. 결론
 6. 참고문헌

저자정보

  • 김현정 서울특별시 서대문구 이화여대길 52 이화-신세계관 B104호
  • 장미정 서울특별시 서대문구 이화여대길 52 이화-신세계관 B104호
  • 신경식 서울특별시 서대문구 이화여대길 52 이화-신세계관 B104호

참고문헌

자료제공 : 네이버학술정보

    함께 이용한 논문

      ※ 기관로그인 시 무료 이용이 가능합니다.
      ※ 학술발표대회집, 워크숍 자료집 중 4페이지 이내 논문은 '요약'만 제공되는 경우가 있으니, 구매 전에 간행물명, 페이지 수 확인 부탁 드립니다.

      • 4,000원

      0개의 논문이 장바구니에 담겼습니다.