첨단기술정보

  1. home
  2. 알림마당
  3. 과학기술정보분석
  4. 첨단기술정보

문서 분류의 유사성 측정을 위한 카이스퀘어 방법

전문가 제언
○ 웹 문서의 양이 급증함에 따라서 인터넷에서 원하는 정보를 찾기가 점점 힘들어 지는데 문서 분류를 통해서 이 문제를 해결할 수 있다. 사용하는 기법은 다양하나 대부분의 방법은 특징 표기 및 선정, 유사성 측정 그리고 임계치를 사용한 분류의 세 과정을 거친다. 본 논문에서는 카이스퀘어 통계를 사용한 방식을 제안한다.

○ 카이스퀘어 통계 공식이 가지고 있는 근본적인 문제는 벡터의 각 요소가 모든 요소의 합에 비해서 매우 작기 때문에 확률이 낮아진다는 것이다. 이 문제를 해결하기 위해서는 용어를 응집하여 해당 확률을 높여야 하는데 용어간의 의미 연관성은 WordNet ontology를 사용한다. 이러한 작업은 동의어와 상위어를 사용한 두 수준에서 진행된다.

○ 참고 문헌에 국내 연구자의 결과가 인용되지 않아 정보 검색을 한 결과 categorization은 큰 분야로 7439편, text categorization도 1825편이다. 이 분야를 similarity 문제로 제한해도 1985편, feature selection으로 해도 1242편으로 분류 문제에서 이 두 문제가 차지하는 비중을 알 수 있다. 이를 다시 카이스퀘어로 세 분류 하면 본 저널에 36편을 포함하여 217편의 논문이 있는데 이 중에 18편의 국내 연구자 논문이 검색되었다.

○ 한국인 연구자 논문의 비율은 6%에 달하여 상대적으로 높은 편인데 본 저널에 발표된 분야를 보면 데이터 마이닝 1편, SVM 2편 및 기타 1편으로 논문과 직접 관계가 큰 것은 데이터 마이닝 1편이다. 이에 대한 완벽한 조사는 본 분석의 한계를 지난 것이나 text categorization이 언어를 다루는 문제이므로 외국인이 이에 필요한 특징 추출 등의 구체적인 문제에서 접근하기 힘든 것이 하나의 요인으로 작용하여 상대적으로 국내 연구가 진행되고 있을 것으로 판단된다.
저자
Yao-Tsung Chen , Meng Chang Chen
자료유형
학술정보
원문언어
영어
기업산업분류
정보통신
연도
2011
권(호)
38(4)
잡지명
Expert Systems with Applications
과학기술
표준분류
정보통신
페이지
3085~3090
분석자
김*창
분석물
담당부서 담당자 연락처
이 페이지에서 제공하는 정보에 대하여 만족하십니까?
문서 처음으로 이동