earticle

논문검색

연결개방 데이터 클라우드에서의 동일연결 생성을 위한 엔트로피 기반 개체 동일성 식별

원문정보

Entropy-based Entity Sameness Identification for Generating sameAs Links in Linked Open Data Cloud

손용락

피인용수 : 0(자료제공 : 네이버학술정보)

초록

영어

This study proposes a method for automatically generating sameAs RDF triples in the Linked Open Data (LOD) cloud. LODs participating in the LOD cloud provide various descriptions on specific subjects from their respective perspectives. A sameAs link is an RDF triple in the format {entity1 entity2}, which indicates that two entities, entity1 and entity2, identified by different URIs in different LODs, are essentially the same. When a sameAs RDF triple exists in an LOD, searching for entity1 allows the search results to be expanded by including information about entity2. However, the current LOD cloud lacks sufficient and balanced provision of these sameAs links. To automatically generate sameAs links, a method is needed to assess whether entity1 and entity2 are sufficiently identical. In this study, the sameness between entity1 and entity2 was evaluated based on the similarity of the object values connected to their pseudo-identifiers. To select the predicates participating in these pseudo-identifiers, the study proposed an Entropybased Entity Sameness Identification(EESI) method that utilizes the entropy and information gain of individual predicates and their combinations. EESI reproduced 93% of the existing sameAs links and generated 23% new sameAs links.

한국어

본 연구는 연결개방데이터(Linked Open Data: LOD) 클라우드에서의 동일연결 RDF 트리플들을 자동으로 생성 하는 방안을 제안하였다. LOD 클라우드에 참여하는 LOD들은 특정 주제에 대하여 각자의 관점에서 기술한 다양한 내용들을 제공한다. 동일연결은 서로 다른 LOD들에 존재하며 상이한 URI로 식별되는 개체1, 개체2가 실질적으로 는 동일한 개체임을 {개체1 개체2} 형식의 RDF 트리플로 구성한 것이다. 동일연결 RDF 트리플 이 존재하는 LOD에서 개체1을 대상으로 검색하는 경우 검색결과를 개체1에 대한 검색결과에 개체2의 내용이 더해 진 확장된 내용으로 제공하는 것을 가능하게 한다. 하지만 현재의 LOD 클라우드에는 이러한 동일연결 제공이 불충 분하고 불균형적인 상태에 있다. 동일연결 자동생성을 위해서는 개체1, 개체2간이 충분히 동일한 것인가를 평가하는 방안이 필요하다. 본 연구에서는 개체1, 개체2간의 동일수준을 이들의 의사식별자에 연결된 목적어 값들의 유사성에 근거하여 평가하였다. 의사식별자에 참여하는 술어들을 선정하기 위하여 개별 술어 및 이들 조합의 엔트로피와 정보 이득을 활용하는 방안으로 엔트로피 기반 개체동일성 식별(Entropy-based Entity Sameness Identification: EESI)를 제안하였다. EESI는 기존 동일연결의 93%를 재생산하였고 23%의 새로운 동일연결들을 생성하였다.

목차

요약
Abstract
1. 서론
1.1 연결개방데이터 클라우드 구성
1.2 동일연결을 통한 검색결과 확장
1.3 동일연결 부족 및 불균형
2. 선행연구 및 한계
3. 엔트로피 기반 개체 동일성 식별
3.1 엔트로피 평가
3.2 조건부 엔트로피 평가
3.3 정보이득 평가
3.4 의사식별자 구성
3.5 동일수준 평가
4. 실험 및 분석
5. 결론
Acknowledgement
참고문헌

저자정보

  • 손용락 Yonglak Sohn. 서경대학교 컴퓨터공학과

참고문헌

자료제공 : 네이버학술정보

    함께 이용한 논문

      0개의 논문이 장바구니에 담겼습니다.