첨단기술정보

  1. home
  2. 알림마당
  3. 과학기술정보분석
  4. 첨단기술정보

적응적 특징 선정에 기반을 둔 문서 스트림 분류 알고리듬

전문가 제언

○ 문자 스트림의 문제가 전통적인 문자 크러스터링과 다른 점은 실시간에서 알고리듬의 높은 효율성이 요구되고, 방대한 양의 자료가 메모리에 항상 상주할 수 없다는 것, 디스크를 자주 스캔하는 것은 수용할 수 없는 지연을 발생시켜서 참을 수 없다는 사실, 그리고 시간이 흐름에 따라서 자료 패턴이 변하기 때문에 적응적이야 한다는 것이다.

○ 주제 변화의 탐지를 위해서는 현재의 특징 세트를 사용하여 처리한 결과 어떤 임계치를 적용하는 것인데 정적인 한 개의 값보다는 이동하는 창을 이용한 보다 넓은 기간의 자료를 사용하는것이 장래의 과제로 대두된다. 특징 세트의 선정도 여러 가지 방법을 비교하여 시도되어야 하고 언어학적 접근 방법도 생각할 수 있다.

○ 참고 문헌에 국내 연구자의 결과가 인용되지 않아 정보 검색을 한 결과 text stream clustering에는 950편의 논문이 있다. 이를 feature selection으로 제약하면 본 져널에 30편을 포함하여 366편의 논문이 검색된다. 366편 중에 23편의 한국인 논문이 발견되었는데 이는 text stream이 아닌 text의 논문과 중복된 것이 몇 편 있어서 정확한 비율의 추정은 힘들다. 결론적으로 국내 연구 활동은 상당히 있는 것으로 보이나 text와 text stream을 하나로 묶어서 분석하는 것이 국내 활동에 대한 이해를 도울 것이다.

○ 이를 다시 adaptive와의 교집합을 찾으면 본 져널의 19편을 포함하여 155편의 논문이 검색된다. 위와 유사한 분석을 되풀이 하면 6편의 한국인 논문이 있어 비율은 4%이다. 검색 시스템의 정확도에 문제가 있어서 많은 논문이 text와 text stream을 구별하지 않고 있다. 그럼에도 불구하고 한 가지 특기할 사항은 text stream의 경우 text와는 달리 전통적인 데이터 마이닝 보다는 다른 응용 분야에 대한 논문이 많았다.
저자
Linghui Gong, Jianping Zeng, Shiyong Zhang
자료유형
학술정보
원문언어
영어
기업산업분류
정보통신
연도
2011
권(호)
38(3)
잡지명
Expert Systems with Applications
과학기술
표준분류
정보통신
페이지
1393~1399
분석자
김*창
분석물
담당부서 담당자 연락처
이 페이지에서 제공하는 정보에 대하여 만족하십니까?
문서 처음으로 이동