첨단기술정보

  1. home
  2. 알림마당
  3. 과학기술정보분석
  4. 첨단기술정보

트리 오토마타 제약을 가진 트리 패턴 마이닝

전문가 제언
?전문가 제언?

○ 패턴 마이닝(pattern mining)에 관한 대부분의 연구는 주로 아이템셋과 아이템셋의 시퀀스(sequence)와 같은 단순한 데이터 구조에 초점을 맞추고 있다. 그러나 화학적 화합물, 단백질 구조, XML과 Web log 데이터베이스 및 사회 네트워크와 같은 복잡한 데이터를 취급하는 최근의 응용 분야에서는 트리나 그래프와 같은 더욱 복잡한 데이터 구조를 필요로 한다.

○ 일반적으로 데이터 패턴은 시퀀스나 트리의 형태를 지닌다. 시퀀스 패턴은 이를테면, 텍스트 스트링과 같은 것으로 흔히 정규 표현을 사용하여 서술되고 트리 패턴은 구조에 기반한 데이터를 처리하기 위하여 일반적인 도구로서 프로그래밍 언어로 표현된다. 개념적으로 트리 구조로 볼 수 있는 데이터는 생물정보공학, Web log 분석 및 XML 데이터베이스와 같은 도메인에 많이 존재한다.

○ 이런 상황에서 관심있는 패턴은 그래프에 나타나는 빈번한 객체 값(라벨) 뿐만아니라 이들 구조에서 발견되는 빈번한 특수 위상도 포함한다. 패턴 마이닝의 연구에는 이들 트리와 그래프를 마이닝하기 위한 여러 가지 기술들이 많이 등장하고 있다. 국내에서 데이터 마이닝과 트리 패턴 마이닝의 연구는 여러 응용 분야에서 비교적 활발히 연구되고 있다.

○ 이 논문에서는 제약 기반 트리 패턴 마이닝에 초점을 두고 트리 패턴 상에서 사용자의 제약을 명세하기 위한 메카니즘으로서 트리 오토마타의 사용을 제안하고 있다. 여기서는 마이닝 프로세스에 통합된 트리 오토마타에 의하여 명세된 사용자 제약을 허용하는 CoBMiner 알고리즘을 제안한다.

○ 트리 패턴 마이닝 기술은 웹 응용과 웹 서비스의 관련된 사용자의 요구를 더 잘 이해하기 위한 의사 결정자에게 도움을 줄 수 있으며 주어진 XML 문서에 대하여 어떤 부분 문서가 빈번하게 등장하는 가를 발견하여 사용자의 관심을 알 수 있게 한다. 방대한 XML 데이터베이스에서 적절한 지식을 발견하기 위한 패터 마이닝 분야는 앞으로도 많이 발전될 것으로 보인다.
저자
Sandra de Amo, Nyara A. Silva, Ronaldo P. Silva, Fabiola S. Pereira,
자료유형
학술정보
원문언어
영어
기업산업분류
정보통신
연도
2010
권(호)
35
잡지명
Information Systems
과학기술
표준분류
정보통신
페이지
570~591
분석자
김*기
분석물
담당부서 담당자 연락처
이 페이지에서 제공하는 정보에 대하여 만족하십니까?
문서 처음으로 이동