첨단기술정보

  1. home
  2. 알림마당
  3. 과학기술정보분석
  4. 첨단기술정보

시간범위 안의 데이터 스트림에서 빈번한 아이템셋의 마이닝

전문가 제언

데이터 스트림은 센서 네트워크에 의하여 생성되는 센서 데이터, 소매업 공급망에 의하여 기록되는 온라인 거래, 식료품점 판매 데이터, 웹 애플리케이션에서 방문 페이지와 클릭 스트림, 전자통신 네트워크에서 차지하는 메시지, 날마다 날씨와 교통 기록, 주식시장이나 네트워크 트래픽 관리와 모니터링과 같은 실제 상황의 사례에서 많이 발생한다.

 

흐름 데이터의 마이닝은 새로운 도전 과제이다. 왜냐하면, 데이터 스트림은 연속적이고 한계가 없으며 시간에 따라 변화하는 실시간 제약과 데이터 분포를 고려하여 처리되기를 요구하기 때문이다. 데이터 스트림에서 일부 패턴은 자주 발생하는 반면에 어떤 패턴은 차츰 소멸되기도 한다.

 

시간 범위가 퍼지 집합에 의하여 매끄럽게 정의되거나 스트림 특성에 따라 결정될 때 트랜잭션의 스트림에서 빈번한 아이템-셋을 찾기 위한 효율적인 방안을 제공하는 알고리즘이 있으나, 단순한 반복 표준 알고리즘으로는 탐색이 각 반복에서 스크래치로부터 시작하고 트랜잭션 스트림의 메모리를 고려하지 않기 때문에 불충분하다.

 

이 논문에서는 데이터 스트림에서 빈번한 아이템-셋 마이닝 알고리즘을 제시한 것으로 축소된 테스트 윈도우 내에 흐름 후보의 기억을 유지하는 대체해법으로서 WIS(window itemset shift)를 제안한다. 기존의 방법과는 달리 테스트 윈도우의 개념을 써서 윈도우의 지지대가 높을수록 더 적은 테스트 윈도우가 생성되는 성질을 이용하는 것이다.

 

아이템-셋 마이닝 관련 연구는 NDSL 검색에 의하면 전 세계 논문 914편 가운데 18편이 국내 논문으로 발표되고 있어 활발한 연구 분야이다. 그러나 특허의 경우 전체 32편 가운데 국내 특허는 아직 없다. 마이닝 분야는 빅데이터 분야와 어우러져 더 양질의 데이터를 추출하려는 노력의 일환으로서 향후 더욱 개척하고 연구할 분야이다. 특히 이 논문에서는 불확실성을 이용한 퍼지 개념을 써서 알고리즘을 개발했다는 점에서 이 분야를 연구하는 과학자에게 좋은 참고 자료가 될 것이다.

저자
Luigi Troiano, Giacomo Scibelli
자료유형
학술정보
원문언어
영어
기업산업분류
정보통신
연도
2014
권(호)
89()
잡지명
Data & Knowledge Engineering
과학기술
표준분류
정보통신
페이지
21~37
분석자
김*기
분석물
담당부서 담당자 연락처
이 페이지에서 제공하는 정보에 대하여 만족하십니까?
문서 처음으로 이동