k-평균 클러스터링 알고리듬의 효율적인 초기화 방법의 비교 연구
- 전문가 제언
-
○ k-평균은 가장 많이 사용되는 분할 방법이다. 이 방법은 간단하고 쉽게 수정되고 계산 복잡성 그리고 메모리 용량 역시 자료 수의 선형이다. 그러나 k-평균의 약점은 간결하고 잘 분리된 크러스터만을 탐지할 수 있고 잡음이나 경계치에 민감하다는 것이다. 마지막으로 알고리듬이 경사도 하강이어서 초기치 선택에 매우 민감하다.
○ 본 논문의 의의는 k-평균 알고리듬을 위해서 개발된 가장 인기 있는 초기화 방법을 조사 비교한 것이다. 다양한 자료에 이들을 적용하여 결과를 검토하여 알고리듬의 효율성을 재조명하고 또한 초기화 문제를 다루는데 대한 일련의 추천 사항을 만든 것이다. 이 과정에서 실제 자료에 더해서 인위적으로 자료를 생성하여 여러 경우에서 알고리듬의 성능을 평가한 것이 특이한 점이다.
○ 본 논문은 비교 평가 논문이기 때문에 이러한 종합적인 연구를 다룬 논문은 수가 적고 논문에서 인용된 한국인 논문은 없어서 이러한 형태의 연구는 국내에서 진행된 적이 없다고 판단한다. 그러나 논문에서 다루는 알고리듬의 연구 활동에 대한 국내 상황을 파악하기 위해서 ScienceDirect에서 k-means를 검색하면 204,528편의 논문이 있어 방대한 분야이고 다시 initialization으로 분야를 축소하면 17,545편이 있어 전체 논문의 약 8%로서 초기화의 중요성을 실감한다.
○ 다시 세부적으로 알고리듬을 보면 Forgy에 61편(1), Bradley와 Fayyad에 222편(5), PCA-Part에 877편(23) 그리고 greedy k-means++에 1,662편의 논문이 있다(한국인 논문 편수). 알고리듬과 연관된 논문의 편수를 보면 알고리듬의 인기도는 알 수 있으나 대부분의 한국인 논문은 k-means와 initialization 문제를 다른 연구에 응용하는 도구로서 사용한 경우이기 때문에 k-means 자체에 대한 연구는 국내 활동이 아직 미미하다고 생각된다.
- 저자
- M. Emre Celebi, Hassan A. Kingravi, Patrico A. Vela
- 자료유형
- 학술정보
- 원문언어
- 영어
- 기업산업분류
- 정보통신
- 연도
- 2013
- 권(호)
- 40(1)
- 잡지명
- Expert Systems with Applications
- 과학기술
표준분류 - 정보통신
- 페이지
- 200~210
- 분석자
- 김*창
- 분석물
-
이미지변환중입니다.