내 신청현황
종류	모집공고명	진행상태
신청내용이 없습니다.

첨단기술정보

home
알림마당
과학기술정보분석
첨단기술정보

문서 채광을 위한 다중 알갱이 계층 구조의 주제 추출 알고리듬

전문가 제언: ○ 인터넷의 인기는 웹사이트에서 많은 양의 자료를 발생시킨다. 중요한 주제들이 이러한 문서 자료 안에 숨어 있어서 이들을 발견하고 추적하는 일이 의미 있는 과제이다. 기본적으로 주제는 알갱이 형태를 가지고 있어서 주제에 대해서 부주제를 가지고 있는 계층적 구조를 형성한다.

○ 기존의 방법은 첫째 부주제에 사용되는 용어가 같은 단어로서 비중만 다르기 때문에 부주제를 묘사하는데 의미가 없다. 둘째 주제 트리 구조를 생성하기 때문에 한 부주제는 하나의 부모 주제에만 속하게 되어 이는 실제의 경우와 다르다. 단어 문서의 빈도 분포를 혼합 Gausian으로 생각하면 다른 부주제를 각기 다른 특징 단어로 묘사할 수 있는 다중 알갱이 계층적 주제 구조를 생성하게 된다. .

○ 추출 알고리듬은 우선 문서 뭉치에 대해서 모든 주제 알갱이를 생성하고 다음에 각 알갱이에 대해서 특징 단어를 선정한다. 이와 같이 문서를 특징 문서 세트로 변환한 이후에 알갱이에 대한 주제 세트에 대해서 클러스터 알고리듬을 적용한다. 새로운 주제 세트에 대해서 특징 단어의 생성과 클러스터링을 반복한다. 사제가 아닌 Reuters와 같은 공개된 자료를 사용한 알고리듬의 성능 평가가 요청된다.

○ IT 분야 저널에서 topic extraction은 50,267(366)으로 범위가 너무 커서 본 저널(366)로 국한하여 다시 검색을 한 결과 text는 202건으로서 문서를 다루는 연구가 많은 비중을 차지하고 있다. 인터넷에서 발생하는 다량의 자료를 보려고 website를 다시 검색하니 202건 중에 46건이 나왔다. 46건을 전부 조사한 결과 4편의 한국인 논문이 있어서 응용을 보면 기존 탄원서로부터 예상되는 민원의 예측, 다언어 분류, 서비스 창조 그리고 소비자 불만 분석 등의 다양한 분야인데 국내에도 많은 분야에 적용할 수 있다. 보다 큰 분야로는 인공 지능과 자료 채광에 응용된다. 본 논문에서는 한국인 논문이 인용되지 않고 있고 multi-grain을 검색하면 논문의 수가 2편으로 줄어들어서 논문에 제시된 기법 자체는 대량 문서에는 아직 적용이 활발하지는 못하다.

저자: Jianping Zeng, Chengrong Wu, Wei Wang
자료유형: 학술정보