시계열 자료 분석을 위한 2-수준 클러스터링 방법
- 전문가 제언
-
○ 전형적으로 시계열은 실수 자료의 수열로서 이러한 자료는 각종 통계, 신호 처리, 계량 경제학 그리고 수학적 재정 문제 등 여러 분야에서 발생한다. 이들의 분석에서 공통적으로 당면하는 문제는 자료의 양이 방대하여 일차적으로 자료의 차원 축소를 해야 하는 문제에 봉착한다.
○ 자료의 차원 축소는 여러 가지 기법이 있으나 시계열 전체를 보는 방법, 시계열의 부수열을 보는 방법 그리고 이들을 전부 고려하는 2 수준 방법이 있다. 자료를 유사성에 의해서 크러스터하고 이를 심벌로 표시하여 자료의 차원을 줄인다. 이를 수준-1 자료라고 하는데 여기에서 한 심벌은 한 구간을 표시하게 되는데 이것이 수준-2 자료이다. 이와 같이 전체 자료와 이에서 발생하는 부 수열을 동시에 감안한다.
○ 이 논문의 내용과 연관된 분야를 보면 제일 상위 수준이 크러스터링이고 또한 응용 분야가 시계열인 경우이다. 크러스터링의 방법론은 전체, 부수열 그리고 2 단계로 나누어 진다. 구체적인 방법론으로서는 1 단계 자료를 만들기 위한 심볼화 접근 방법 그리고 크러스터링에서 유사성을 결정하는 방법이다.
○ 논문에서 국내 과학자 논문의 인용이 없고 또한 분야로 볼 때에 clustering은 IT 분야 저널에서 22,610(1,441은 본 저널)이고 time series가 응용인 것은 8,650(613)으로 분야가 너무 커서 국내 참여자가 있을 것으로 예상되나 정확한 판단은 힘들다. 크러스터링의 방법론은 two-level은 16,623(1,085), whole은 9,463(582)서 역시 분야가 너무 크고 subsequence는 543(28)였으나 이 저널에 실린 28 편중에 한국인 논문이 한편 있으나 시계열이 아닌 웹 검색에 관한 것이었다. CAST 유사성 알고리듬도 많아 1,776(245)이다. 그러나 1-수준 자료 심벌화인 SAX의 활용은 적고 (52(3) 국내 연구자도 없었다. 결론적으로 이 논문과 동일한 문제는 다루는 연구는 국내에 없고 clustering이나 time series에는 참여가 있지만 분야가 커서 조사하기 힘들다. 저널에 나오는 기술적인 논문은 모두 이러한 양상을 가지고 있다.
- 저자
- Cheng-Ping Lai , Pau-Choo Chung , Vincent S. Tseng
- 자료유형
- 학술정보
- 원문언어
- 영어
- 기업산업분류
- 정보통신
- 연도
- 2010
- 권(호)
- 37(9)
- 잡지명
- Expert Systems with Applications
- 과학기술
표준분류 - 정보통신
- 페이지
- 6319~6326
- 분석자
- 김*창
- 분석물
-