태그(tag)를 사용한 은폐된 웹 스팸의 탐지
- 전문가 제언
-
○ 스팸 메일과 웹 스팸은 사용자가 원하지 않는 자료를 보낸다는 면에서는 공통점이 있으나 웹 스팸은 스팸 메일과 달리 검색 엔진에서 자신의 페이지의 선정 순위가 높아지도록 노력을 한다. 이를 하려면 자신의 본색을 드러내지 말아야 하는데 은폐는 흔히 사용되는 기법 중의 하나이다.
○ 은폐는 기본적으로 검색 엔진이 보는 페이지와 사용자가 보는 브라우저(browser)의 페이지를 다르게 하는 것이다. 은폐 탐지 기법은 복사, 요소, 그룹 및 공식의 네 가지 성분에 의해서 분류된다. 복사 차원은 엔진과 브라우저(browser)에서 보는 URL의 수, 요소 차원은 웹 페이지에서 사용되는 정보, 그룹 차원은 정보의 묶음, 그리고 공식은 두 페이지 간의 차이를 계산하는 방식이다.
○ 웹 페이지에서 고려되는 요소는 용어, 태그(tag) 그리고 링크(link)이다. 위의 세 요소 중에서 동적으로 변하는 웹 페이지에서 가장 변화가 적은 것은 태그(tag)인데 이것에 착안한 본 논문의 탐지 기법이 나머지 두 요소를 분석하는 기존의 방법보다 유리하다고 생각되고 실제로 실험 결과가 이를 입증한다.
○ 웹 스팸 문제에 대해서는 국내 포탈(portal)을 운영하는 기업이나 조직에서 나름대로의 대책이 있으나 태그(tag)가 아닌 다른 요소를 사용한 전통적인 기법이 일부 상용화되어 이 방식에 의존할 것으로 예측된다. 본 논문에서는 국내 연구원의 결과는 인용된 것이 없으며 국내 다른 조직에서도 공식적으로 발표한 내용은 찾지 못했다.
○ 은폐 탐지 기법의 전제는 엔진과 브라우저(browser)에서 보는 페이지가 다르다는 것인데 이러한 은폐를 정적 은폐라고 한다. 반면에 이들이 일치하면 정상적인 웹 페이지일 수도 있으나 이 중에는 동적 은폐라고 분류되는 웹 스팸이 포함될 수 있어서 이 문제에 대해서는 보다 세련된 접근 방법이 요청된다.
- 저자
- Jun-Lin Lin
- 자료유형
- 학술정보
- 원문언어
- 영어
- 기업산업분류
- 정보통신
- 연도
- 2009
- 권(호)
- 36(4)
- 잡지명
- Expert Systems with Applications
- 과학기술
표준분류 - 정보통신
- 페이지
- 7493~7499
- 분석자
- 김*창
- 분석물
-