분류를 위한 자료 복잡성 척도의 분석
- 전문가 제언
-
○ 분류기의 성능에 입력인 자료 세트가 미치는 영향을 파악하기 위해서 자료 복잡성의 척도를 사용한 연구들이 있다. 척도는 기본적으로 자료 세트에 포함된 정규성과 비정규성을 선별된 기하학적 프리미티브로 묘사한다. 이러한 묘사기는 자료 세트의 기하학적 복잡성의 척도라고 간주된다.
○ 자료 복잡성 척도를 사용하여 분류기의 효율성을 진단하는 방법에 대해서는 연구가 많았으나 각각의 복잡성 척도는 자료 특징에 의존하기 때문에 완전히 다른 특징을 가진 두 세트가 같은 척도의 값을 가질 수 있다. 이러한 결과는 척도의 의미를 다른 자료 세트 간의 관계를 수립하는 데 직접 사용할 수 없음을 알려준다.
○ ScienceDirect에서 classification은 검색하면 69,429편의 논문이 있는 큰 분야이다. 여기에서 data complexity를 보면 아직 31,438편의 논문이 있어 방대하다. 다시 data complexity measure를 보아도 22,324편의 논문이 있어서 data complexity 문제나 또는 data complexity measure가 classification에서 차지하는 비중의 중요성을 알 수 있다. Analysis나 comparison이라는 검색어를 추가해도 결과는 별로 축소되지 않는다.
○ 본 논문에서는 같은 한국인 저자의 논문 3편이 인용되고 있는데 여기의 주제인 inter-class overlap measure로 분야를 축소하면 4,240편의 논문이 있어서 판단이 힘들어 논문이 실린 저널인 expert systems with applications에 있는 175편을 추적한 결과 6편의 논문을 찾을 수 있었으나 인용된 논문과 직접적인 관계는 없었다. 따라서 기하학적인 특성으로서 자료의 복잡성과 분류 성능에 대한 연구는 아직 국내에서 활발하지 못한 것으로 판단된다.
- 저자
- Jose Ramon Cano
- 자료유형
- 학술정보
- 원문언어
- 영어
- 기업산업분류
- 정보통신
- 연도
- 2013
- 권(호)
- 40()
- 잡지명
- Expert Systems with Applications
- 과학기술
표준분류 - 정보통신
- 페이지
- 4820~4831
- 분석자
- 김*창
- 분석물
-