첨단기술정보

  1. home
  2. 알림마당
  3. 과학기술정보분석
  4. 첨단기술정보

빅 데이터를 위한 간결한 데이터 구조

전문가 제언

빅 데이터는 그 크기에서 계산기의 메모리에 격납할 수 없으므로 디스크 상에 둘 필요가 있다. 디스크는 랜덤 액세스가 늦기 때문에 처리에 제약이 생긴다. 또 고속 처리를 위해 데이터에 색인을 추가할 수 있지만 그 크기도 문제가 된다. 간결한 데이터 구조(succinct data structures)는 데이터나 그 색인을 극한까지 압축하면서 다양한 처리를 고속으로 수행할 수 있는 데이터 구조이다. 압축한 데이터를 메모리에 격납함으로써 고속 처리가 실현될 수 있다.

 

기존의 압축 방법과 데이터 구조에서 빅 데이터 처리의 어려운 문제를 해결할 수 있는 간결한 데이터 구조는 1989년에 Jacobson에 의해 제안되었지만 당시는 크게 주목받지 못했다. 그러나 2000년에 GrossiVitter에 의해 제안된 압축 접미사 배열(compressed suffix arrays)이 많은 주목을 끌어 간결한 데이터 구조의 연구가 활발하게 되었다. 이 글에서는 기본적인 간결한 데이터구조와 그것들을 이용한 빅 데이터 처리 예에 관해 설명한다.

 

미국 및 유럽의 경우는 간결한 데이터 구조로 비트 벡터, 목구조, 문자열 검색 등 많은 연구 사례가 발표되고 있다. 또한 간결한 데이터 구조에 의한 데이터 구축 알고리즘도 발표되었으며 Google은 데이터 구축 툴을 개발하여 상용화하였다. 빅 데이터 적용 예로 게놈 어셈블리에서 상용 소프트웨어 다수가 발표되어 활용되고 있다. 국내 경우 플래시 메모리상에서 간결한 데이터 구조의 설계와 구현의 연구 외에는 연구 실적이 미미하다.

 

정부는 빅 데이터 수집 시 비식별화 조치를 의무화하는 빅 데이터 개인정보보호 가이드라인을 발표하는 등 빅 데이터 활성화에 많은 노력을 기울이고 있다. 그러나 이와 같은 정책적인 지원과 아울러 빅 데이터 분석 등 처리 기술의 향상이 무엇보다 중요하다. 특히 빅 데이터를 쉽고 빠르게 분석할 수 있는 간편한 데이터 구축기술 개발이 필요하다. 향후 산학연이 합동으로 이 기술개발에 역량을 집중해야 하며 연구에 본 문헌이 참고 되었으면 한다.

 

저자
Sadakane Kunihiko
자료유형
니즈학술정보
원문언어
일어
기업산업분류
정보통신
연도
2014
권(호)
97(5)
잡지명
電子情報通信學會誌
과학기술
표준분류
정보통신
페이지
379~383
분석자
신*래
분석물
담당부서 담당자 연락처
이 페이지에서 제공하는 정보에 대하여 만족하십니까?
문서 처음으로 이동