스트리밍 데이터에서 빈번한 아이템 찾기
- 전문가 제언
-
○ 인터넷 상에서 데이터는 흔히 두 지점 사이에 데이터를 연속적으로 보내지 않고 적당한 크기의 패킷으로 분할하여 전송한다. 그러나 영상이나 사운드와 같은 멀티미디어 데이터는 입력이 연속적이고 실시간으로 단속 없이 물 흐르듯 전송되므로 패킷 방식이 아닌 다른 방식의 데이터 스트리밍 프로세스(Data streaming process)가 필요하다.
○ 데이터베이스 관리 시스템에서 빈번한 아이템의 연구는 데이터 마이닝의 한 분야로서 많은 분야에 응용된다. 이를테면, 컴퓨터를 이용한 주식 시장에서 거래가 활발한 종목의 발견이라든지, 웹에서 빈번한 트래픽의 발견, 센서 네트워크에서 빈번한 감지 노드의 발견 및 마케팅과 전자상거래에서 거래가 활발한 아이템이나 광고 효과 등이 이에 속한다.
○ 스트리밍 데이터에서 빈번한 아이템을 찾아내는 일은 스트리밍 데이터 마이닝의 영역으로 최근에 관심을 갖는 분야가 되고 있다. 이 논문에서는 최근에 발표된 이 분야에 대한 알고리즘을 카운터 기반 알고리즘과 스케치 기반 알고리즘으로 나누어 분석하고 각 알고리즘에 대한 성능을 비교한 것이다.
? 여기서는 주어진 허용한계, 오차확률, 빈번한 아이템의 개수, 아이템 도메인의 최대값 또는 질의 값에 대하여 실험 데이터셋 실제 데이터셋을 써서 각 알고리즘의 수행 능력을 비교 분석하였다.
○ 이 연구에 등장하는 알고리즘들은 제한된 범위에서 수행 능력이 평가되므로 실용성은 아직 미흡하다. 그러나 스트림 데이터의 빈번한 아이템 발견을 위한 문제를 제시하고 그 해결 방안에 대하여 실험하고 분석한 내용은 이 분야를 연구하는 과학자들에게 좋은 참고가 되리라고 본다. 더욱이 IT 분야가 여러 분야에 활용되고 정보의 양이 방대해짐에 따라 소비자에게 적합한 아이템을 발견하는 스트리밍 마이닝의 기술은 앞으로 우리가 연구하고 발전시켜야 할 기술임에 틀림없다. 이 분야에 대한 획기적인 소프트웨어 개발이 기대된다.
- 저자
- Nishad Manerikar, Themis Palpanas
- 자료유형
- 학술정보
- 원문언어
- 영어
- 기업산업분류
- 정보통신
- 연도
- 2009
- 권(호)
- 68
- 잡지명
- Data & Knowledge Engineering
- 과학기술
표준분류 - 정보통신
- 페이지
- 415~430
- 분석자
- 김*기
- 분석물
-
이미지변환중입니다.