첨단기술정보

  1. home
  2. 알림마당
  3. 과학기술정보분석
  4. 첨단기술정보

문서 분석을 위한 의미적 다중 응집형 혼합 주제 모델

전문가 제언

○ 방대한 양의 문서는 자동 분석에 의한 주제 파악이 필요하다. 주제 파악에는 여러 가지 기법이 제안되었으나 주제는 본질적으로 계층적 또는 응집적이기 때문에 주제 추출을 위해서 계층적 주제 구조를 찾는 일이 중요하다. 전형적인 방법으로는 계층적 크러스터링 알고리듬이 많이 사용되고 다른 접근 방법으로서는 주제 자체를 계층적 구조로서 모델링하는 것이다.

○ 본 논문에서는 주제 구별 인식자로서 STG를 제안하여 주어진 말뭉치 안에 있는 주제를 STG 주제들의 혼합체로서 간주하여 mgMTM이라는 새로운 접근 방법을 제시한다. DCT를 사용하여 STG를 계산하고 학습 mgMTM에서 주제를 추출하는 도구로 사용한다. 기본적으로 STG에 기반을 둔 다중 응집 혼합 주제 모델이다.

○ 참고 문헌에 국내 연구자의 결과가 인용되지 않아 정보 검색을 한 결과 text analysis는 큰 분야로 37,591(1,324)편, topic model도 9,690(477)편이다. 이 분야를 clustering으로 제한하면 2,073(188)편으로 이 접근 방법이 많이 사용되었음을 알 수 있다. 괄호 안의 수자는 본 저널에 실린 편수이다.

○ topic model에서 semantic granularity가 차지하는 비중도 상대적으로 높아서 965(41)편의 논문이 검색 되었다. 본 저널에 있는 41편의 논문의 저자를 본 결과 두 편의 한국인 논문이 발견되었는데 본 논문과 같은 방법론의 연구가 아니고 응용인 information flow와 web mining에 관한 것이었다. 이를 다시 multi-grain으로 제한한 결과 본 저널을 포함하여 60편의 논문이 있었으나 한국인 저자는 없어서 국내 활동이 없음을 보여 주었다.
저자
Jianping Zeng , Jiangjiao Duan , Wei Wang , Chengrong Wu
자료유형
학술정보
원문언어
영어
기업산업분류
정보통신
연도
2011
권(호)
38(4)
잡지명
Expert Systems with Applications
과학기술
표준분류
정보통신
페이지
3574~3579
분석자
김*창
분석물
담당부서 담당자 연락처
이 페이지에서 제공하는 정보에 대하여 만족하십니까?
문서 처음으로 이동