첨단기술정보

  1. home
  2. 알림마당
  3. 과학기술정보분석
  4. 첨단기술정보

증거 기반 내용 신빙성 모델을 사용하는 스팸 탐지

전문가 제언
○ 웹에 정보 추가가 쉬워져서 정확하거나 신뢰성 있는 정보를 확인하기 힘들다. 또한 이중에 웹 스팸이 포함되어 신뢰성 없는 정보를 유포하여 사용자를 혼동시킨다. 웹 스팸은 스팸 목적을 가지거나 또는 다른 목적으로 사용되는 경우에 웹 스팸은 통신망의 낭비, 웹의 오염 그리고 검색 순위를 왜곡한다.

○ 본 논문에서는 웹 자원을 내용 신뢰성을 활용하여 모델하고 스팸 웹 페이지는 신뢰성 없는 정보의 핵심적인 부분이라는 관점을 택하고 이 모델을 활용하여 스팸 페이지를 탐지하려고 한다. 이를 위해서 문서에 기반 하는 단어의 수 등의 11개의 증거와 정보의 질에 기반 하는 현재성 등의 6개의 증거를 조합하여 내용 신뢰성 모델을 구축한다. 이들의 순위를 정하여 스팸 탐지는 전통적인 2진 척도의 분류 문제가 아니라 순위 문제라는 관점을 채택한다.

○ 논문에서는 국내 과학자의 논문이 인용되지 않아서 약간의 검색을 한 결과 spam detection은 그리 연구가 활발하지 않은 분야로서 35편의 논문만 검색되었고 여기에 web이라는 제약을 가하면 14편의 논문이 나온다. 두 검색에서 각각 2편의 한국인 논문이 나오는데 이들은 같은 논문이고 분야는 상당히 다르다. 여기에 다시 content 또는 content quality로 수식해도 web spam detection과 유사한 결과가 나온다.

○ web spam detection 문제를 내용의 질 문제로 축약하여 evidence라는 용어의 사용을 검색하면 본 논문을 포함하여 3편의 논문이 나오는데 나머지 2편의 내용은 웹과 직접적인 관계는 없는 논문이다. 본 논문에서 사용되는 evidence로서 currency 및 cohesiveness로 수식하여 검색하면 본 논문만 검색된다.

○ 검색 결과를 보면 웹 스팸 탐지는 활발한 연구 분야가 아니고 내용의 질도 내용 평가의 일부로 간주하는 경우가 많고 본 논문과 같이 증거에 기반을 둔 신뢰성 모델을 구축하여 내용과 조합하여 순위를 결정하는 연구는 전례를 볼 수 없는 독창적이라는 아이디어라고 생각된다.
저자
Wei Wang , Guosun Zeng , Daizhong Tang
자료유형
학술정보
원문언어
영어
기업산업분류
정보통신
연도
2010
권(호)
37(8)
잡지명
Expert Systems with Applications
과학기술
표준분류
정보통신
페이지
5599~5606
분석자
김*창
분석물
담당부서 담당자 연락처
이 페이지에서 제공하는 정보에 대하여 만족하십니까?
문서 처음으로 이동