첨단기술정보

  1. home
  2. 알림마당
  3. 과학기술정보분석
  4. 첨단기술정보

스팸 제거를 위한 기계 학습의 고찰

전문가 제언
○ 이메일의 사용이 증가함에 따라서 스팸 메일은 심각한 문제로 등장하고, 최근에는 문자뿐만 아니라 영상에 문자를 포함하는 스팸도 등장하고 있다. 스팸이 성행하는 이유는 적은 비용으로 여러 사람에게 메일을 보낼 수 있기 때문이다.

○ 최근에 기계 학습을 사용한 필터에 대한 연구가 활발하게 진행되고 있는데 이 논문은 이 분야의 문헌 조사를 한 리뷰 논문이다. 현재까지 많은 리뷰 논문이 발표되었으나 이 논문에서는 현재까지 간과된 두 가지 관점을 집중적으로 다루었다.

○ 첫 번째는 대부분의 연구가 메시지가 이미 결정된 단어의 집합으로 구성된다는 가정에서 문서의 특징을 정의하는데, 이 방식은 새 단어가 출현하면 이를 처리하기 위해서 모델을 초기화해야 하는 단점이 있다. 두 번째는 여러 형태의 Bayes 기법을 비교 평가한 것이다.

○ 첫 번째 문제는 BoW 또는 벡터 공간 기법인데, 이 방식은 문제에 편견을 부과하기 때문에 이를 해결하기 위해서는 시스템을 점증 방식으로 구성하여 새로운 특징을 추가하거나 또는 삭제할 수 있는 접근 방식이 유효할 것으로 예측하고 있다. 더욱 발전한 발상은 특정된 환경에서만 사용할 수 있는 주문형 필터를 만드는 것이다.

○ 스팸 필터 설계에서 고려해야 하는 중요한 사항은 오분류 비용과 정 분류 비용의 비대칭성이다. 스팸을 정상 메일로 처리하면 사용자가 삭제하면 된다. 그러나 정상적인 메일이 스팸으로 처리되면 심각한 문제를 일으킬 수 있다. 더욱이 스팸 메일을 시스템에서 자동으로 삭제하는 경우에 신중을 기해야 한다.
저자
Thiago S. Guzella, Walmir M. Caminhas
자료유형
학술정보
원문언어
영어
기업산업분류
정보통신
연도
2009
권(호)
36(7)
잡지명
Expert Systems with Applications
과학기술
표준분류
정보통신
페이지
10206~10222
분석자
김*창
분석물
담당부서 담당자 연락처
이 페이지에서 제공하는 정보에 대하여 만족하십니까?
문서 처음으로 이동