데이터 시맨틱과 데이터 품질의 개선
- 전문가 제언
-
○ 정보화 사회에서 데이터웨어에서의 가장 큰 문제점은 데이터 품질의 관리 문제이다. 기업이나 공공기관에서 실시간 데이터의 통합 또는 전사적 시스템 통합에서 데이터의 품질은 의사결정에 핵심적인 요소가 되고 있으며 데이터 품질의 저하는 잘못된 정보로 인하여 기업이나 기관에 막대한 손실을 초래하게 된다. 데이터 품질에 관한 톰 레드만의 법칙에 따르면 결함을 가진 입력 데이터의 작업 비용은 정상 입력 데이터의 경우보다 10배 이상의 비용을 초래한다고 한다.
○ 이 논문에서는 데이터 품질 문제를 이질적인 데이터 시맨틱에 의하여 발생하는 데이터의 오역 문제로 보고 이질성을 어떻게 해결할 것인가를 설명하고 있다. 여기서는 먼저 사례를 통하여 데이터 품질 문제에 원인을 제공하는 시맨틱 이질성을 확인하고 어떻게 복잡한 실체와 그들의 관계가 모아지는가에, 관련된 종합적인 온톨로지 이질성의 문제가 논의된다. 다음으로 COIN 기술을 사용하여 데이터 시맨틱을 획득하고 시맨틱 이질성을 조정함으로써 데이터 품질을 개선할 수 있음을 사례를 통하여 보여주고 있다.
○ 데이터 품질 문제는 단순한 데이터베이스 안에 저장된 데이터의 문제를 떠나서 인터넷과 같은 네트워크 상의 정보의 품질 문제로 확장된다. 이는 결과적으로 시맨틱 웹 기술과 이를 위한 온톨로지의 기술문제로 귀착된다. 선진국을 비롯하여 우리나라에서도 시맨틱 웹의 연구가 활발히 진행되고 있고 우리나라의 일부 통신회사에서는 시맨틱 웹이 이미 실용화 단계에 있다. 이 연구는 데이터 품질 문제를 다루는 연구자들에게 많은 참고가 될 것이다.
- 저자
- Stuart Madnick, Hongwei Zhu
- 자료유형
- 학술정보
- 원문언어
- 영어
- 기업산업분류
- 정보통신
- 연도
- 2006
- 권(호)
- 59
- 잡지명
- Data & Knowledge Engineering
- 과학기술
표준분류 - 정보통신
- 페이지
- 460~475
- 분석자
- 김*기
- 분석물
-
이미지변환중입니다.