스팸 제거를 위한 기계 학습의 고찰
- 전문가 제언
-
○ 이메일의 사용이 증가함에 따라서 스팸 메일은 심각한 문제로 등장하고, 최근에는 문자뿐만 아니라 영상에 문자를 포함하는 스팸도 등장하고 있다. 스팸이 성행하는 이유는 적은 비용으로 여러 사람에게 메일을 보낼 수 있기 때문이다.
○ 최근에 기계 학습을 사용한 필터에 대한 연구가 활발하게 진행되고 있는데 이 논문은 이 분야의 문헌 조사를 한 리뷰 논문이다. 현재까지 많은 리뷰 논문이 발표되었으나 이 논문에서는 현재까지 간과된 두 가지 관점을 집중적으로 다루었다.
○ 첫 번째는 대부분의 연구가 메시지가 이미 결정된 단어의 집합으로 구성된다는 가정에서 문서의 특징을 정의하는데, 이 방식은 새 단어가 출현하면 이를 처리하기 위해서 모델을 초기화해야 하는 단점이 있다. 두 번째는 여러 형태의 Bayes 기법을 비교 평가한 것이다.
○ 첫 번째 문제는 BoW 또는 벡터 공간 기법인데, 이 방식은 문제에 편견을 부과하기 때문에 이를 해결하기 위해서는 시스템을 점증 방식으로 구성하여 새로운 특징을 추가하거나 또는 삭제할 수 있는 접근 방식이 유효할 것으로 예측하고 있다. 더욱 발전한 발상은 특정된 환경에서만 사용할 수 있는 주문형 필터를 만드는 것이다.
○ 스팸 필터 설계에서 고려해야 하는 중요한 사항은 오분류 비용과 정 분류 비용의 비대칭성이다. 스팸을 정상 메일로 처리하면 사용자가 삭제하면 된다. 그러나 정상적인 메일이 스팸으로 처리되면 심각한 문제를 일으킬 수 있다. 더욱이 스팸 메일을 시스템에서 자동으로 삭제하는 경우에 신중을 기해야 한다.
- 저자
- Thiago S. Guzella, Walmir M. Caminhas
- 자료유형
- 학술정보
- 원문언어
- 영어
- 기업산업분류
- 정보통신
- 연도
- 2009
- 권(호)
- 36(7)
- 잡지명
- Expert Systems with Applications
- 과학기술
표준분류 - 정보통신
- 페이지
- 10206~10222
- 분석자
- 김*창
- 분석물
-