첨단기술정보

  1. home
  2. 알림마당
  3. 과학기술정보분석
  4. 첨단기술정보

웹에서 발굴한 데이터의 채집과 구조화

전문가 제언

본고는 2013년 eBay가 인수한 Decide.com의 부사장 Kate Matsudaira가 Blog@CACM 커뮤니티에 기고한 글로, 웹에서의 데이터 발굴방법과 활용방법에 대해 언급하고 있다.

 

데이터마이닝의 핵심은 통계적으로 의미 있는 데이터를 제공하기 위해 처리 가능한 충분한 데이터의 양을 확보하는 일이다. 데이터 획득은 종종 비 구조화된 형태로 채집되므로 이 데이터는 처리에 적합한 구조화 형태로 전환되어야 한다.

 

수년간 무료 웹 크롤러(정보자동수집 프로그램) 데이터 세트가 증가 되었으나 여전히 수많은 앱들은 정보수집을 위해 웹 크롤을 필요로 한다. 데이터마이닝이 대단히 어려운 것은 아니지만 웹 콘텐츠의 수집 및 발견을 위한 도전과제가 존재하며, 오히려 대규모 데이터마이닝에 대한 도전은 점점 더 어려워지고 있다.

저자
Kate Matsudaira
자료유형
연구단신
원문언어
영어
기업산업분류
정보통신
연도
2014
권(호)
57(3)
잡지명
Communications of the acm
과학기술
표준분류
정보통신
페이지
10~11
분석자
박*만
분석물
담당부서 담당자 연락처
이 페이지에서 제공하는 정보에 대하여 만족하십니까?
문서 처음으로 이동