적응적 특징 선정에 기반을 둔 문서 스트림 분류 알고리듬
- 전문가 제언
-
○ 문자 스트림의 문제가 전통적인 문자 크러스터링과 다른 점은 실시간에서 알고리듬의 높은 효율성이 요구되고, 방대한 양의 자료가 메모리에 항상 상주할 수 없다는 것, 디스크를 자주 스캔하는 것은 수용할 수 없는 지연을 발생시켜서 참을 수 없다는 사실, 그리고 시간이 흐름에 따라서 자료 패턴이 변하기 때문에 적응적이야 한다는 것이다.
○ 주제 변화의 탐지를 위해서는 현재의 특징 세트를 사용하여 처리한 결과 어떤 임계치를 적용하는 것인데 정적인 한 개의 값보다는 이동하는 창을 이용한 보다 넓은 기간의 자료를 사용하는것이 장래의 과제로 대두된다. 특징 세트의 선정도 여러 가지 방법을 비교하여 시도되어야 하고 언어학적 접근 방법도 생각할 수 있다.
○ 참고 문헌에 국내 연구자의 결과가 인용되지 않아 정보 검색을 한 결과 text stream clustering에는 950편의 논문이 있다. 이를 feature selection으로 제약하면 본 져널에 30편을 포함하여 366편의 논문이 검색된다. 366편 중에 23편의 한국인 논문이 발견되었는데 이는 text stream이 아닌 text의 논문과 중복된 것이 몇 편 있어서 정확한 비율의 추정은 힘들다. 결론적으로 국내 연구 활동은 상당히 있는 것으로 보이나 text와 text stream을 하나로 묶어서 분석하는 것이 국내 활동에 대한 이해를 도울 것이다.
○ 이를 다시 adaptive와의 교집합을 찾으면 본 져널의 19편을 포함하여 155편의 논문이 검색된다. 위와 유사한 분석을 되풀이 하면 6편의 한국인 논문이 있어 비율은 4%이다. 검색 시스템의 정확도에 문제가 있어서 많은 논문이 text와 text stream을 구별하지 않고 있다. 그럼에도 불구하고 한 가지 특기할 사항은 text stream의 경우 text와는 달리 전통적인 데이터 마이닝 보다는 다른 응용 분야에 대한 논문이 많았다.
- 저자
- Linghui Gong, Jianping Zeng, Shiyong Zhang
- 자료유형
- 학술정보
- 원문언어
- 영어
- 기업산업분류
- 정보통신
- 연도
- 2011
- 권(호)
- 38(3)
- 잡지명
- Expert Systems with Applications
- 과학기술
표준분류 - 정보통신
- 페이지
- 1393~1399
- 분석자
- 김*창
- 분석물
-
이미지변환중입니다.