자기조직 지도 기법에 의한 문서 분류
- 전문가 제언
-
○ 문서 분류가 스팸 필터링, 이메일 분류, 지식 축적의 형성 등 다양한 분야에 적용됨에 따라서 문서 분류를 위한 여러 가지의 통계적 기법이 개발되었다. 이에 사용되는 통계적 기법들은 각기 장단점을 가지고 있어서 적용할 수 있는 분야도 각기 다르고 알고리듬의 복잡성도 상당히 다양하다.
○ 이러한 통계적 기법 중에서 단순 Bayes 분류는 공식이 간단하고 소량의 훈련 자료만 필요하여 훈련과 분류에 소비되는 시간이 다른 기법에 비해 적으며 특정된 분야에서 좋은 결과를 낸다. 그러나 이 방법의 근본적인 단점은 Bayes 증명에다 자료의 독립성을 가정한 것이기 때문에 실제 상황과 달라 문제에 따라서 좋지 않은 결과를 발생시키기 때문에 조심해서 사용해야 한다.
○ 따라서 단순 Bayes 분류 자체를 보완하는 연구가 많이 진행되었는데 연관성이 높은 용어를 추출하는 기능이나 확률 분포를 리그 방식을 사용하여 계산하거나 기타 다른 방법이 연구되었다. 그럼에도 불구하고 단순 Bayes 분류 자체만 사용하는 시스템은 거의 없고 본 논문에서 제안한 것과 같이 다차원 분류기인 SOM을 추가하여 혼성 시스템이 많이 사용되고 있다.
○ 혼성 시스템 구성에 대한 국내 연구는 본 논문에서 인용되지 않아서 파악할 수 없으나 단순 Bayes 분류를 보강하는 문제에 대해서는 국내에서 발표된 논문이 인용되고 있다. 특히 자연어 처리와 같이 문장을 구성하는 단어들이 깊은 연관성을 가지는 분야에서 단순 Bayes 분류를 보강하는 연구 사례가 있다.
○ 결론적으로 이 논문의 대분류는 문서 분류의 성능 향상이고 구체적인 방법으로 통계적 기법의 사용이 소분류 그리고 전통적으로 사용되는 통계적 기법 중에서 단순 Bayes 분류의 단점을 보완하고 여기에 다차원 분류기인 SOM을 통합한 혼성 시스템을 구성한 연구라고 생각하여 통계적 기법 사용의 파생 연구라고 볼 수 있다.
- 저자
- Dino Isa, V.P. Kallimani , Lam Hong Lee
- 자료유형
- 학술정보
- 원문언어
- 영어
- 기업산업분류
- 정보통신
- 연도
- 2009
- 권(호)
- 36(5)
- 잡지명
- Expert Systems with Applications
- 과학기술
표준분류 - 정보통신
- 페이지
- 9584~9591
- 분석자
- 김*창
- 분석물
-