첨단기술정보

  1. home
  2. 알림마당
  3. 과학기술정보분석
  4. 첨단기술정보

클라우드 하둡에 의한 빈발 패턴 마이닝을 위한 개선된 알고리즘

전문가 제언

데이터 마이닝(data mining)은 대량의 데이터에서 유용한 정보를 추출하는 기술을 말한다. 데이터 마이닝은 다양한 통계적 기법, 수학적 기법과 인공지능을 활용한 패턴인식 기술 등을 이용하여 데이터 속에서 유의미한 관계, 형태 등에 대한 규칙을 발견하는 것이다.

 

인터넷 기술 발달로 데이터양은 나날이 증가하고 있다. 이러한 방대한 양의 데이터에서 가치 있는 정보를 추출하기 위한 많은 연구가 있었고 다양한 알고리즘이 제안되고 있다. 프리 포스트(PrePost) 알고리즘은 빈발 패턴 마이닝으로 잘 알려진 알고리즘 중의 하나이다. 하둡은 이러한 대량의 데이터를 처리하는데 잘 알려진 기법이다.

 

이 글에서는 대량의 데이터를 효과적으로 처리하기 위해 하둡의 특징을 결합한 개선된 프리 포스트 알고리즘을 소개하고 있다. 또한 개선된 알고리즘의 아키텍처는 공개 클라우드 환경에서 운영된다. 데이터 크기가 증가하면 개선된 프리 포스트 알고리즘은 60% 더 좋은 성능을 보여주었다.

 

데이터 마이닝은 매우 다양한 분야에 활용되고 있다. 예를 들면 군사 분야에서 미사일 탄도 궤도에 영향을 주는 요인분석으로 요인 변화에 따라 어떻게 탄도가 영향을 받는가를 알아낼 때 사용된다. 국가정보기관은 엄청난 양의 도청된 통신들 가운데 특히 중요성이 높은 통신을 추출하기 위해, 보안 전문가는 패킷 별로 네트워크에 위협요인 여부를 판단하는데 데이터 마이닝을 사용한다. 또한 인터넷 쇼핑몰의 상품 추천 시스템에서 고객의 소비 형태나 성향 등을 분석하여 적합한 상품을 추천하는데 사용된다.

 

국내 데이터 마이닝과 관련된 빅 데이터 시장 규모는 2015년에 약 2.6억 달러, 2020년에는 약 9억 달러(한화 1조 원)에 달할 것으로 예상한다. 따라서 이와 관련한 데이터 마이닝 기술 관련 분석 소프트웨어의 수요도 나날이 증가가 예상된다. 현재 데이터 마이닝 기술은 주로 해외 기술에 의존하고 있어 앞으로 이 분야에 대한 국내 기술 정착이 요구되며 세계 빅 데이터 시장(대략 169321억 달러, 2015년 기준) 진출을 위한 국제경쟁력 확보가 필요한 시점이다.

저자
Sanket Thakare, et al.
자료유형
니즈학술정보
원문언어
영어
기업산업분류
정보통신
연도
2016
권(호)
79()
잡지명
Procedia Computer Science
과학기술
표준분류
정보통신
페이지
207~214
분석자
박*준
분석물
담당부서 담당자 연락처
이 페이지에서 제공하는 정보에 대하여 만족하십니까?
문서 처음으로 이동