첨단기술정보

  1. home
  2. 알림마당
  3. 과학기술정보분석
  4. 첨단기술정보

중국어 감상 분류를 위한 효과적인 특징의 활용

전문가 제언

?전문가 제언?

○ 문서는 대분하여 객관적인 사실과 주관적인 의견의 두 종류가 있다. 인터넷에는 많은 양의 의견 또는 감상문서가 있어서 이들의 자동적인 분류가 절실하게 요구되고 있다. 지금까지 기계 학습을 주로 사용했는데 n-gram의 유효성, 단어보다 작거나 큰 단위를 다룰 수 있는 부스트링 특징의 적합성, 단어 또는 절 특징의 효율성 그리고 효율적인 특징의 특성에 관한 것이다.

○ 분류 문제에서는 특징 추출이 가장 중요한데 특징은 n-gram과 부스트링으로 대분하는데 전자에는 n-gram과 감상 용어 특징 그리고 후자에는 부스트링, 부스트링 그룹과 중요 부스트링 그룹이 있다. 문서의 길이가 길면 부스트링의 개수가 너무 많아서 이를 그룹하거나 다시 중요도를 고려하여 특징의 수를 줄인다.

○ ScienceDirect의 computer science 분야에서 최상위 개념인 text sentiment classification을 검색하면 173편의 논문밖에 없어서 (text topic classification에는 10,000여편 이상) 최신 연구 분야이고 여기에서 feature extraction을 다루는 논문을 보면 86편이다. 특징 선택의 편수를 보면 이 중에서 n-gram이 23편이고 substring은 4편에 불과하여 부스트링 기법을 세분하여 검색하기에는 너무 적은 수자이다.

○ text sentiment classification을 검색하여 나온 173편의 논문 중에는 한 편의 한국인 논문이 있었으나 본 논문과는 상이한 분야이고 또한 본 논문에서 인용된 한국인 논문도 없어서 아직 이 분야에서 국내 활동은 미미하다고 판단된다. 이 분야의 연구는 아직 국제적으로도 생소한 분야이나 이를 위해서는 언어 학자들이 감상에 대한 전문 사전을 작성해 주어야 한다. 감상 분류는 제목 분류와 함께 분류의 큰 맥락으로서 국내 활동이 기대되고 또한 중국어에 대한 내용 보다는 이러한 시작이 중국에서는 이미 시작되었다는 것을 알려 주는데 분석의 의미가 있다고 본다.
저자
Zhongwu Zhai, Hua Xu, Bada Kang, Peifa Jia
자료유형
학술정보
원문언어
영어
기업산업분류
정보통신
연도
2011
권(호)
38(8)
잡지명
Expert Systems with Applications
과학기술
표준분류
정보통신
페이지
9139~9146
분석자
김*창
분석물
담당부서 담당자 연락처
이 페이지에서 제공하는 정보에 대하여 만족하십니까?
문서 처음으로 이동