첨단기술정보

  1. home
  2. 알림마당
  3. 과학기술정보분석
  4. 첨단기술정보

순차 데이터 세트에서 이상치 탐지를 위한 그래프 기반 방법

전문가 제언

이상치(outlier) 탐지는 컴퓨터 네트워크에서 침입 탐지부터 기후데이터에서 허리케인의 예측 및 주식시장 데이터에서 잠재적 위기의 징조의 확인에 이르기까지 많은 다양한 분야에 응용되고 있다. 시계열 데이터에서 이상치의 발견 문제는 데이터 마이닝 문헌에서 넓게 연구되어 오고 있으며 많은 기술들이 여러 응용 도메인에서 문제를 다루기 위하여 개발되어오고 있다.

 

그러나 이들 기술들은 이상치를 발견하기 위하여 데이터 형태의 특별한 특성에 의존하고 있다. 결과적으로 이 기술은 다른 응용 도메인에서 서로 다른 데이터 형태에 적용될 수 없다는 문제점이 있다. 따라서 새로운 도메인에 적응하도록 조절되어야 하고 모델 구축을 위하여 일정한 양의 훈련 데이터를 필요로 하는데 데이터양이 제한될 때는 적용하기가 어렵다.

 

이상치는 임의의 분포에서 우연히 발생하기도 하지만 때로는 측정 오류나 전체집합이 과중 분포일 때를 발생하기도 한다. 이상치 탐지 알고리즘은 크게 집합 기반 탐지방법과 공간 기반 탐지방법으로 분류된다. 데이터의 표본에서는 관찰치가 표본의 평균치에 멀리 벗어난 경우 이상치로 보게 된다.

 

이 논문에서는 데이터 세트를 노드로 하고 노드 사이의 인접 정도를 테두리로 하는 그래프를 구축하고 이들 노드를 MST 기법을 사용하여 클러스터화하여 소수 클러스터에서 맥락적 이상치를 확인하는 알고리즘을 개발한 것이다.

 

전 세계적으로 outlier detection algorithm에 관련된 국외논문은 776편, 국내논문은 30편이 존재한다. 그러나 2014년도에 발표된 것은 해외논문 약 23편이 존재하나 국내연구는 없다(NDSL 자료). 이를 미루어 이 분야에 관련된 국내연구는 미약함을 알 수 있다. 이상치는 네트워크뿐만 아니라 금융 시스템 또는 기후 데이터에서 발견될 수 있으므로 이 분야의 연구인들과 다른 도메인에서 이상치 탐지 알고리즘을 개발하려는 이들에게 좋은 참고자료가 되리라고 본다.

저자
Ali Rahmani, Salim Afra, Omar Zarour, Omar Addam, Negar Koochakzadeh, Keivan Kianmehr,Reda Alhajj, Jon Rokne
자료유형
학술정보
원문언어
영어
기업산업분류
정보통신
연도
2014
권(호)
61()
잡지명
Knowledge-Based Systems
과학기술
표준분류
정보통신
페이지
89~97
분석자
김*기
분석물
담당부서 담당자 연락처
이 페이지에서 제공하는 정보에 대하여 만족하십니까?
문서 처음으로 이동