증거 기반 내용 신빙성 모델을 사용하는 스팸 탐지
- 전문가 제언
-
○ 웹에 정보 추가가 쉬워져서 정확하거나 신뢰성 있는 정보를 확인하기 힘들다. 또한 이중에 웹 스팸이 포함되어 신뢰성 없는 정보를 유포하여 사용자를 혼동시킨다. 웹 스팸은 스팸 목적을 가지거나 또는 다른 목적으로 사용되는 경우에 웹 스팸은 통신망의 낭비, 웹의 오염 그리고 검색 순위를 왜곡한다.
○ 본 논문에서는 웹 자원을 내용 신뢰성을 활용하여 모델하고 스팸 웹 페이지는 신뢰성 없는 정보의 핵심적인 부분이라는 관점을 택하고 이 모델을 활용하여 스팸 페이지를 탐지하려고 한다. 이를 위해서 문서에 기반 하는 단어의 수 등의 11개의 증거와 정보의 질에 기반 하는 현재성 등의 6개의 증거를 조합하여 내용 신뢰성 모델을 구축한다. 이들의 순위를 정하여 스팸 탐지는 전통적인 2진 척도의 분류 문제가 아니라 순위 문제라는 관점을 채택한다.
○ 논문에서는 국내 과학자의 논문이 인용되지 않아서 약간의 검색을 한 결과 spam detection은 그리 연구가 활발하지 않은 분야로서 35편의 논문만 검색되었고 여기에 web이라는 제약을 가하면 14편의 논문이 나온다. 두 검색에서 각각 2편의 한국인 논문이 나오는데 이들은 같은 논문이고 분야는 상당히 다르다. 여기에 다시 content 또는 content quality로 수식해도 web spam detection과 유사한 결과가 나온다.
○ web spam detection 문제를 내용의 질 문제로 축약하여 evidence라는 용어의 사용을 검색하면 본 논문을 포함하여 3편의 논문이 나오는데 나머지 2편의 내용은 웹과 직접적인 관계는 없는 논문이다. 본 논문에서 사용되는 evidence로서 currency 및 cohesiveness로 수식하여 검색하면 본 논문만 검색된다.
○ 검색 결과를 보면 웹 스팸 탐지는 활발한 연구 분야가 아니고 내용의 질도 내용 평가의 일부로 간주하는 경우가 많고 본 논문과 같이 증거에 기반을 둔 신뢰성 모델을 구축하여 내용과 조합하여 순위를 결정하는 연구는 전례를 볼 수 없는 독창적이라는 아이디어라고 생각된다.
- 저자
- Wei Wang , Guosun Zeng , Daizhong Tang
- 자료유형
- 학술정보
- 원문언어
- 영어
- 기업산업분류
- 정보통신
- 연도
- 2010
- 권(호)
- 37(8)
- 잡지명
- Expert Systems with Applications
- 과학기술
표준분류 - 정보통신
- 페이지
- 5599~5606
- 분석자
- 김*창
- 분석물
-