첨단기술정보

  1. home
  2. 알림마당
  3. 과학기술정보분석
  4. 첨단기술정보

문서 분류를 위한 부공간 결정 분류기

전문가 제언

○ 문서 분류의 큰 자료 차원 문제를 해결하기 위해서 부공간 크러스터링을 사용하여 어떤 제목과 연관된 단어(차원)를 찾고 또한 두 자료 세트간의 거리가 의미 있는 부공간을 인식하는 SDCC를 고려한다. 우선 EWKM을 반복적으로 호출하여 SDC 트리를 구축한다. 다음으로 트리에서 분류기를 생성하고 마지막으로 새로운 샘플을 분류하기 위한 거리 계량치를 지정한다.

○ SDCC는 전체 훈련 자료에서 일반화된 SDC의 부집합으로 구성된다. 원측적으로는 임의의 SDC의 부집합도 SDCC 모델을 구성할 수 있으나 성능은 크러스터링 과정에서 생성된 SDC와 또한 분류 모델에 어떠한 SDC가 선택되는 가에 따라서 좌우된다. 따라서 SDC 세트의 생성과 이 중에서 분류기를 구성하는 크러스터의 부집합의 선정은 중요하다.

○ ScienceDirect에서 text classification에서 사용되는 기법 중에 subspace decision cluster를 검색하면 232편의 논문이 있고 이들은 형태 인식, 신경망, 인공 지능 등의 연구 분야에서 사용되고 있다. 232편의 저자를 본 결과 3편의 한국인 저자가 있었다. 이들의 공통점은 차원이 큰 자료의 분류인데 전체의 2% 이하의 편수가 나온 것은 subspace나 decision cluster라는 용어로 인한 것이고 text classification에 대한 연구는 많을 것으로 예상된다.

○ subspace를 구성하는 방법인 EWKM나 논문에서 언급된 기타 방법의 비교를 위한 검색에서는 편수가 적어서 근거 있는 결론을 내릴 수가 없는데 큰 이유는 text classification에는 여러 가지 방법이 많고 상대적으로 subspace와 연관된 방법은 적기 때문이다. 따라서 text classification에서 subspace의 개념은 상대적으로 새로운 연구 분야이고 이는 논문에서 인용된 자료가 거의 2000년 이후의 논문인 것을 보아도 입증된다.
저자
Yan Li , Edward Hung , Korris Chung
자료유형
학술정보
원문언어
영어
기업산업분류
정보통신
연도
2011
권(호)
38(10)
잡지명
Expert Systems with Applications
과학기술
표준분류
정보통신
페이지
12475~12482
분석자
김*창
분석물
담당부서 담당자 연락처
이 페이지에서 제공하는 정보에 대하여 만족하십니까?
문서 처음으로 이동