첨단기술정보

  1. home
  2. 알림마당
  3. 과학기술정보분석
  4. 첨단기술정보

엔티티 매칭을 위한 프레임워크의 비교

전문가 제언
○ 엔티티 매칭(entity matching)은 데이터베이스나 탐색 엔진 저장과 같은 이질적인 데이터 원천에 저장된 데이터를 연결하거나 통합하기 위한 핵심적인 방법이다. 다른 이름으로는 복제 확인, 레코드 연결, 엔티티 해상도 또는 참조 조정 등으로도 일컬어진다. 매칭은 동일한 실세계 엔티티를 나타내는 객체, 데이터 인스텐스와 같은 엔티티를 확인하는 데 사용된다.

○ 엔티티 매칭의 목표는 실제의 대응하는 모든 엔티티만이 결과에 포함되도록 리콜(recall)과 정확한 고질의 매칭 결과를 얻는 데 있다. 이를 위하여서는 여러 매칭 방법의 유연한 결합과 주문형 설정이 필요하다. 즉 효과적인 결과가 있어야 한다.

○ 한편, 매칭 프로세스는 방대한 데이터셋(data set)에서도 빨라야 하므로 이를 위하여서 탐색 공간을 축소하는 방법을 사용한다. 이런 방법에는 흔히 블로킹 방법이 사용된다. 또한 매칭은 기업 데이터나 생명 과학 데이터와 같은 여러 도메인 또는 XML(eXtended Markup Language)이나 관계형 데이터 모델에서의 데이터 매칭에 응용도 가능하여야 한다.

○ 이 연구에서는 훈련 데이터의 사용 여부에 관계없이 매칭을 수행할 수 있는 매칭 전략과 블로킹(blocking) 매칭 전략에 대하여 평가 기준을 제시하고 주어진 기준에 따라 엔티티 매칭 프레임워크(framework)들을 비교 분석하였다. 특히 연구 프로토타잎(prototype)에서 최신의 것을 탐구하는 것을 목표로 11개의 프레임워크에 대하여 효과성과 효율성 및 일반성 등의 요구사항을 평가하였다.

○ 엔티티 매칭 문제는 소프트웨어 통합과 같은 시스템 통합 과정에서 발생한다. 이질적 데이터 모델에서 서로 매칭되는 엔티티를 찾아내려면 데이터 클리닝과 데이터 통합과 같은 일반적인 시스템 방법이 요구된다. 오프라인 상에서 데이터 웨어하우스(warehouse)의 추출, 변환 및 로드 프로세스 중에 발생하는 엔티티 매칭 못지않게 인터넷 환경의 오프라인 상에서의 엔티티 매칭 문제 등은 앞으로 연구할 대상이다.
저자
Hanna Kopcke, Erhard Rahm
자료유형
학술정보
원문언어
영어
기업산업분류
정보통신
연도
2010
권(호)
69
잡지명
Data & Knowledge Engineering
과학기술
표준분류
정보통신
페이지
197~210
분석자
김*기
분석물
담당부서 담당자 연락처
이 페이지에서 제공하는 정보에 대하여 만족하십니까?
문서 처음으로 이동