알림마당

  1. home

스트리밍 데이터에서 빈번한 아이템 찾기

전문가 제언
○ 인터넷 상에서 데이터는 흔히 두 지점 사이에 데이터를 연속적으로 보내지 않고 적당한 크기의 패킷으로 분할하여 전송한다. 그러나 영상이나 사운드와 같은 멀티미디어 데이터는 입력이 연속적이고 실시간으로 단속 없이 물 흐르듯 전송되므로 패킷 방식이 아닌 다른 방식의 데이터 스트리밍 프로세스(Data streaming process)가 필요하다.

○ 데이터베이스 관리 시스템에서 빈번한 아이템의 연구는 데이터 마이닝의 한 분야로서 많은 분야에 응용된다. 이를테면, 컴퓨터를 이용한 주식 시장에서 거래가 활발한 종목의 발견이라든지, 웹에서 빈번한 트래픽의 발견, 센서 네트워크에서 빈번한 감지 노드의 발견 및 마케팅과 전자상거래에서 거래가 활발한 아이템이나 광고 효과 등이 이에 속한다.

○ 스트리밍 데이터에서 빈번한 아이템을 찾아내는 일은 스트리밍 데이터 마이닝의 영역으로 최근에 관심을 갖는 분야가 되고 있다. 이 논문에서는 최근에 발표된 이 분야에 대한 알고리즘을 카운터 기반 알고리즘과 스케치 기반 알고리즘으로 나누어 분석하고 각 알고리즘에 대한 성능을 비교한 것이다.

? 여기서는 주어진 허용한계, 오차확률, 빈번한 아이템의 개수, 아이템 도메인의 최대값 또는 질의 값에 대하여 실험 데이터셋 실제 데이터셋을 써서 각 알고리즘의 수행 능력을 비교 분석하였다.

○ 이 연구에 등장하는 알고리즘들은 제한된 범위에서 수행 능력이 평가되므로 실용성은 아직 미흡하다. 그러나 스트림 데이터의 빈번한 아이템 발견을 위한 문제를 제시하고 그 해결 방안에 대하여 실험하고 분석한 내용은 이 분야를 연구하는 과학자들에게 좋은 참고가 되리라고 본다. 더욱이 IT 분야가 여러 분야에 활용되고 정보의 양이 방대해짐에 따라 소비자에게 적합한 아이템을 발견하는 스트리밍 마이닝의 기술은 앞으로 우리가 연구하고 발전시켜야 할 기술임에 틀림없다. 이 분야에 대한 획기적인 소프트웨어 개발이 기대된다.
저자
Nishad Manerikar, Themis Palpanas
자료유형
학술정보
원문언어
영어
기업산업분류
정보통신
연도
2009
권(호)
68
잡지명
Data & Knowledge Engineering
과학기술
표준분류
정보통신
페이지
415~430
분석자
김*기
분석물
이 페이지에서 제공하는 정보에 대하여 만족하십니까?
문서 처음으로 이동