효율적 밀도기반의 클러스터링 알고리즘 설계
- 전문가 제언
-
○ 클러스터 분석(cluster analysis) 또는 클러스터링은 같은 그룹 안에 있는 대상이 어떤 의미에서 더욱 유사하도록 대상을 그룹으로 분류하는 작업이다. 이 클러스터링은 기계 학습, 패턴 인식, 이미지 분석, 정보 검색 및 생물정보 분석과 같은 분야에서 사용되는 것으로 통계적 데이터분석 기법이나 데이터 마이닝 기술에서도 널리 활용된다.
○ 클러스터링에는 데이터 사이에 거리를 기준으로 하거나 데이터 공간에서의 밀도 또는 특수한 통계적 분포를 바탕으로 그룹을 짓는 방법 등이 존재한다. 따라서 클러스터링은 다중 목적 최적의 문제가 되고 그 알고리즘은 개별 데이터-셋과 결과의 의도적 사용에 따라 결정된다.
○ DBSCAN은 Martin Ester(1996) 등에 의하여 제안된 밀도기반 공간 클러스터링 알고리즘으로 공간에 있는 주어진 점에 대하여 이 점에 근접한 점들의 집합으로 클러스터링하는 방법이다. 이 알고리즘은 최소의 입력 파라메타를 사용하므로 대형 공간 데이터베이스를 클러스터하기에 효율적이긴 하나 많은 계산상의 복잡성을 가지고 있다.
○ 이 연구에서는 DBSCAN의 복잡성을 축소하기 위한 새로운 전략으로 클러스터의 처음 진화단계에서 새로운 합병기준을 효율적으로 구현하는 방안을 제시하고 상관계수를 채택한 새로운 밀도기반 클러스터링인 Fast DBC 알고리즘을 제안한다.
○ 클러스터링에 관련된 국내 연구는 이를테면, 시계열 분석, 센서 네트워크의 전송 분석, 다중 서열 알고리즘, 뉴로-퍼지 학습 모델, 이동통신에서의 클러스티링 분석 등 다방면에 걸쳐 수행되고 있다. 또한 밀도기반 클러스터링에 관련된 연구 논문도 33편이 NDSL에 등재되어 있어 활발한 연구가 진행되고 있음을 알 수 있다. 제안된 상관계수를 이용한 Fast DBC 알고리즘은 이 분야의 연구자들에게 좋은 참고가 될 것이다.
- 저자
- Satyasai Jagannath Nanda, Ganapati Panda
- 자료유형
- 학술정보
- 원문언어
- 영어
- 기업산업분류
- 정보통신
- 연도
- 2015
- 권(호)
- 95()
- 잡지명
- Data and Knowledge Engineering
- 과학기술
표준분류 - 정보통신
- 페이지
- 23~38
- 분석자
- 김*기
- 분석물
-