문장 감상 분류를 위한 피셔 판별식 기반의 특징 선정 방법
- 전문가 제언
-
○ 인터넷의 정보가 의견, 태도, 논평 등의 주관적인 내용이 증가하여 유용한 정보를 찾기 힘들다. 문서 감상 분류는 이러한 문제를 해결하려는 노력이나 문서 감상이 어려운 이유는 입장, 관점, 태도 등 주관적인 정보 안에 있으며 또한 BBS, Blogs 등의 자료는 구조가 없거나 불완전하다. 마지막 난관은 분류 특징의 높은 차원이다.
○ 중점적인 연구 분야는 특징 선택과 감상 분류이다. 특징 선택에서는 IG, MI, CHI와 DF 등의 방법을 사용한다. 이 중에서 IG가 가장 효과적이다. 문서 감상 분류는 대분하여 기계 학습과 성적 기반의 두 가지 접근 방법을 사용한다. 기계 학습에서 가장 많이 사용되는 방법은 SVM과 NB이다.
○ ScienceDirect의 computer science 분야에서 최상위 개념인 text sentiment classification을 검색하면 173편의 논문밖에 없어서 (text topic classification에는 10,000여편 이상) 최신 연구 분야이고 특징 선택의 편수를 크기로 나열하면 document frequency 88편, information gain 80편, CHI 51편 그리고 mutual information 46편의 순서이고 fisher's discriminant는 7편으로 마지막을 차지하여 본 논문이 참신한 아이디어일 가능성이 있다. 분류기를 보면 SVM과 NB는 별로 차이가 없이 균등하게 사용된다.
○ text sentiment classification을 검색하여 나온 173편의 논문 중에는 한 편의 한국인 논문이 있었으나 다중 언어 이해에 관한 것으로 본 논문의 내용과는 상이한 분야이다. 또한 본 논문에서 인용된 한국인 논문도 없는 것으로 보아서 text sentiment classification에 관한 국내 활동은 전무하다고 판단된다. 그러나 인터넷 정보는 객관적인 사실과 의견 등의 주관적인 sentiment로 대분되어 topic 분류에 비하면 연구가 시작되는 분야로서 앞으로 국내 과학자들의 연구가 기대된다.
- 저자
- Suge Wang, Deyu Li, Xiaolei Song, Yingjie Wei, Hongxia Li
- 자료유형
- 학술정보
- 원문언어
- 영어
- 기업산업분류
- 정보통신
- 연도
- 2011
- 권(호)
- 38(7)
- 잡지명
- Expert Systems with Applications
- 과학기술
표준분류 - 정보통신
- 페이지
- 8696~8702
- 분석자
- 김*창
- 분석물
-
이미지변환중입니다.