earticle

논문검색

Introduction of our dynamic programming approach for clustering data : Uncharted Path, Sequence Allocation Algorithm and Clustering

초록

한국어

비지도 방식의 클러스터링은 주로 각 데이터에 대한 유사도나 거리에 기반하여 수행되며, 기본적으로 NP (Non-deterministic polynomial) Hard의 영역으로 알려져 있다. 각 노드에 대한 계산은 매트릭스에 기반하여 수행되는데, 노드의 수가 많은 경우 다른 노드와 비교하는 계산 시간이 매우 많이 소요될 수 밖에 없으며, 이를 단시간 내에 계산하기 위해서는 동적프로그래밍과 같은 컴퓨터 알고리즘이 수반되어야 한다. 이러한 계산 복잡도와 구현의 어려움으로 인해 빅데이터의 클러스터링은 유클리드나 코사인 유사도 등 몇 가지 전통적인 컴퓨터 거리 계산 방식에 국한되어 적용되고 그 계산 방식을 제공하는 주요한 클러스터링 라이브러리에 종속적으로 의존되어 왔다. 따라서 이러한 보편적인 클러스터링으로 계산이 불가능한 특수한 데이터의 경우에는 적용이 아예 불가능하거나 어려운 점이 존재할 수 있다. 예를 들어 개인별 직무 경력과 같은 데이터는, 특정인의 경력 정보가 다른 인력의 경력 정보와 비교를 할 수 있는데, 이를 어떻게 비교를 하여 그 거리를 특정화하고, 여러가지 “career pathway”를 분류해내고 검토하기 위한 특수한 클러스터링 알고리즘이 요구된다. 본 연구에서는 IT 분야의 경력정보 데이터를 활용하여 생명공학 분야에서 DNA 시퀀스에 대한 분류를 위해 활용되는 Optimal Matching 알고리즘을 활용하여 경력 정보의 계산한 후 이를 활용하여 클러스터링하는 시스템을 소개한다.

목차

Abstract
Introduction
Literature Review
Career Pathway
Methods
Data and Sample
Coding and Re-Sampling
Optimal matching and Distance making
Agglomerative Clustering
Acknowledgments
References

저자정보

  • 김소정 ㈜나라지식정보 부설기업연구소 연구소장
  • Thompson S.H. Teo National University of Singapore, Business school, professor
  • Vivien G. Lim National University of Singapore, Business school, professor
  • 심선영 성신여자대학교 경영학과, 부교수

참고문헌

자료제공 : 네이버학술정보

    함께 이용한 논문

      ※ 기관로그인 시 무료 이용이 가능합니다.
      ※ 학술발표대회집, 워크숍 자료집 중 4페이지 이내 논문은 '요약'만 제공되는 경우가 있으니, 구매 전에 간행물명, 페이지 수 확인 부탁 드립니다.

      • 4,000원

      0개의 논문이 장바구니에 담겼습니다.