웹에서 발굴한 데이터의 채집과 구조화
- 전문가 제언
-
본고는 2013년 eBay가 인수한 Decide.com의 부사장 Kate Matsudaira가 Blog@CACM 커뮤니티에 기고한 글로, 웹에서의 데이터 발굴방법과 활용방법에 대해 언급하고 있다.
데이터마이닝의 핵심은 통계적으로 의미 있는 데이터를 제공하기 위해 처리 가능한 충분한 데이터의 양을 확보하는 일이다. 데이터 획득은 종종 비 구조화된 형태로 채집되므로 이 데이터는 처리에 적합한 구조화 형태로 전환되어야 한다.
수년간 무료 웹 크롤러(정보자동수집 프로그램) 데이터 세트가 증가 되었으나 여전히 수많은 앱들은 정보수집을 위해 웹 크롤을 필요로 한다. 데이터마이닝이 대단히 어려운 것은 아니지만 웹 콘텐츠의 수집 및 발견을 위한 도전과제가 존재하며, 오히려 대규모 데이터마이닝에 대한 도전은 점점 더 어려워지고 있다.
- 저자
- Kate Matsudaira
- 자료유형
- 연구단신
- 원문언어
- 영어
- 기업산업분류
- 정보통신
- 연도
- 2014
- 권(호)
- 57(3)
- 잡지명
- Communications of the acm
- 과학기술
표준분류 - 정보통신
- 페이지
- 10~11
- 분석자
- 박*만
- 분석물
-
이미지변환중입니다.