문서 분류의 유사성 측정을 위한 카이스퀘어 방법
- 전문가 제언
-
○ 웹 문서의 양이 급증함에 따라서 인터넷에서 원하는 정보를 찾기가 점점 힘들어 지는데 문서 분류를 통해서 이 문제를 해결할 수 있다. 사용하는 기법은 다양하나 대부분의 방법은 특징 표기 및 선정, 유사성 측정 그리고 임계치를 사용한 분류의 세 과정을 거친다. 본 논문에서는 카이스퀘어 통계를 사용한 방식을 제안한다.
○ 카이스퀘어 통계 공식이 가지고 있는 근본적인 문제는 벡터의 각 요소가 모든 요소의 합에 비해서 매우 작기 때문에 확률이 낮아진다는 것이다. 이 문제를 해결하기 위해서는 용어를 응집하여 해당 확률을 높여야 하는데 용어간의 의미 연관성은 WordNet ontology를 사용한다. 이러한 작업은 동의어와 상위어를 사용한 두 수준에서 진행된다.
○ 참고 문헌에 국내 연구자의 결과가 인용되지 않아 정보 검색을 한 결과 categorization은 큰 분야로 7439편, text categorization도 1825편이다. 이 분야를 similarity 문제로 제한해도 1985편, feature selection으로 해도 1242편으로 분류 문제에서 이 두 문제가 차지하는 비중을 알 수 있다. 이를 다시 카이스퀘어로 세 분류 하면 본 저널에 36편을 포함하여 217편의 논문이 있는데 이 중에 18편의 국내 연구자 논문이 검색되었다.
○ 한국인 연구자 논문의 비율은 6%에 달하여 상대적으로 높은 편인데 본 저널에 발표된 분야를 보면 데이터 마이닝 1편, SVM 2편 및 기타 1편으로 논문과 직접 관계가 큰 것은 데이터 마이닝 1편이다. 이에 대한 완벽한 조사는 본 분석의 한계를 지난 것이나 text categorization이 언어를 다루는 문제이므로 외국인이 이에 필요한 특징 추출 등의 구체적인 문제에서 접근하기 힘든 것이 하나의 요인으로 작용하여 상대적으로 국내 연구가 진행되고 있을 것으로 판단된다.
- 저자
- Yao-Tsung Chen , Meng Chang Chen
- 자료유형
- 학술정보
- 원문언어
- 영어
- 기업산업분류
- 정보통신
- 연도
- 2011
- 권(호)
- 38(4)
- 잡지명
- Expert Systems with Applications
- 과학기술
표준분류 - 정보통신
- 페이지
- 3085~3090
- 분석자
- 김*창
- 분석물
-
이미지변환중입니다.