상실 데이터의 기밀 보존 전가
- 전문가 제언
-
○ 데이터 집합은 몇 개의 상실(missing) 값을 갖는 경우가 발생한다. 상실 값을 가진 데이터 집합을 입력으로 사용할 경우에 처리된 결과는 기대하지 않은 결과를 낳을 수도 있다. 데이터 마이닝에서는 데이터가 완전할 것으로 가정하므로, 전처리 과정으로 이른바 데이터 세척(cleaning)을 수행한다.
○ 데이터 세척 과정에서는 상실값을 보간하는 여러 가지 방법을 사용한다. 보간법에서는 데이터 집합 내에 정상 데이터들로부터 평균, 최빈값 등에서 전가(imputation)된 값으로 대체하게 된다. 특히 데이터 마이닝에서는 세척 과정에 기밀성을 보존하기 위하여 기밀 보존 방법이 사용된다. 기밀 보존이란, 여러 부서에서 공유된 자료에서 데이터 전가를 발생시킬 때, 전가된 데이터가 포함된 부서 외에는 다른 부서가 이를 알지 못하게 하는 것을 의미한다.
○ Jagannathan 등은 이 논문에서 상실 데이터의 기밀 보존 데이터 전가 문제를 해결하기위하여 지연(lazy) 결정 트리 프로토콜을 제안한다. 이들은 데이터를 가상적으로 두 부서로 분할하고, 이 프로토콜에 참여 부서는 전가값을 학습하나, 계산된 결정트리는 두 부서에 의하여 학습되지 않도록 함으로써, 상실 값의 기밀 보존 전가 프로토콜을 설명하고 있다.
○ 지연 결정 트리는 기존의 트리 구조를 건드리지 않고 새로운 규칙에 따른 노드의 생성이 쉬우므로 상실 값을 대체하는 결정 트리의 구축이 쉬운 장점이 있다. 이 논문에서는 두개의 부서를 설정하여 상실 값의 기밀 보존 전가 알고리즘을 소개하고 있으나, 다중 부서가 공유한 데이터에 대하여서는 아직도 연구할 내용이 많다.
○ 이 문제는 궁극적으로 데이터 마이닝 문제에 속한다. 데이터 마이닝은 기업 또는 소비자의 요구에 알맞은 데이터를 찾아 정보로 전환하는 프로세스이다. 정보화의 급속한 진전으로 점점 대형화하는 데이터로부터 가장 최적의 섬세한 정보를 추출하려는 노력은 아직도 계속되고 있고, 앞으로도 더욱 발전할 것이 기대된다.
- 저자
- Geetha Jagannathan, Rbecca N. Wright
- 자료유형
- 학술정보
- 원문언어
- 영어
- 기업산업분류
- 정보통신
- 연도
- 2008
- 권(호)
- 65
- 잡지명
- Data & Knowledge Engineering
- 과학기술
표준분류 - 정보통신
- 페이지
- 40~56
- 분석자
- 김*기
- 분석물
-
이미지변환중입니다.