earticle

논문검색

논문

실시간 이슈 탐지를 위한 일반-급상승 단어사전 생성 및 매칭 기법

원문정보

A Generation and Matching Method of Normal-Transient Dictionary for Realtime Topic Detection

최봉준, 이한주, 용우석, 이원석

피인용수 : 0(자료제공 : 네이버학술정보)

초록

영어

Recently, the number of SNS user has rapidly increased due to smart device industry development and also the amount of generated data is exponentially increasing. In the twitter, Text data generated by user is a key issue to research because it involves events, accidents, reputations of products, and brand images. Twitter has become a channel for users to receive and exchange information. An important characteristic of Twitter is its realtime. Earthquakes, floods and suicides event among the various events should be analyzed rapidly for immediately applying to events. It is necessary to collect tweets related to the event in order to analyze the events. But it is difficult to find all tweets related to the event using normal keywords. In order to solve such a mentioned above, this paper proposes A Generation and Matching Method of Normal-Transient Dictionary for realtime topic detection. Normal dictionaries consist of general keywords(event: suicide-death-loop, death, die, hang oneself, etc) related to events. Whereas transient dictionaries consist of transient keywords(event: suicide–names and information of celebrities, information of social issues) related to events. Experimental results show that matching method using two dictionary finds more tweets related to the event than a simple keyword search.

한국어

트위터는 사용자들에게 정보를 받거나 교환하는 채널로써의 역할이 활발히 이루어지고 있고 새로운 사건이 발생했을 때 빠르게 반응하기 때문에 지진이나 홍수, 자살 등의 새로운 사건을 탐지하는 센서역할로 활용할 수 있다. 그리고 사건을 탐지하기 위해서 우선적으로 관련된 트윗 추출이 필수적이다. 하지만 관련된 트윗을 찾기 위해 관련 키워드를 포함한 트윗을 추출하기 때문에 해당 키워드가 없지만 의미적으로 사건과 관련이 있는 트윗은 찾지 못하는 문제점이 있다. 또한 기존의 연구들은 디스크에 저장된 데이터에 대한 분석이 주를 이루고 있어 원하는 결과를 얻기위해서는 데이터를 수집하여 저장하고 분석에 이르기까지 오랜 시간이 소모된다. 이러한 문제점을 해결하기 위해 본연구에서는 실시간 이슈 탐지를 위한 일반-급상승 단어 사전 생성 및 매칭 기법을 제안한다. 데이터 스트림 인메모리 기반으로 일반-급상승 단어 사전을 생성 및 관리하기 때문에 새로운 사건을 빠르게 학습하고 대응할 수 있다. 또한 분석을 원하는 주제의 일반 사전과 급상승 사전을 동시에 관리하기 때문에 기존의 방법으로 찾지 못하는 트윗을검출해 낼 수 있다. 본 연구를 통해 빠른 정보와 대응이 필요한 분야에 즉시적으로 활용할 수 있다.

목차

요약
 Abstract
 1. 서론
 2. 관련 연구
 3. 일반-급상승 단어사전 생성 및 매칭기법
  3.1 일반 단어사전 생성
  3.2 급상승 단어사전 생성
  3.3 단어사전 매칭 기법
 4. 성능평가
  4.1 불용어 제거
  4.2 사전 생성 비교 실험
  4.3 일반 단어사전 매칭 실험
  4.4 급상승 단어사전 매칭 실험
 5. 결론
 Acknowledgement
 참고문헌

저자정보

  • 최봉준 Bongjun Choi. 연세대학교 컴퓨터과학과 데이터베이스 연구실
  • 이한주 Hanjoo Lee. 연세대학교 컴퓨터과학과 데이터베이스 연구실
  • 용우석 Wooseok Yong. 연세대학교 컴퓨터과학과 데이터베이스 연구실
  • 이원석 Wonsuk Lee. 연세대학교 컴퓨터과학과 데이터베이스 연구실

참고문헌

자료제공 : 네이버학술정보

    함께 이용한 논문

      0개의 논문이 장바구니에 담겼습니다.