빅 데이터를 위한 간결한 데이터 구조
- 전문가 제언
-
○ 빅 데이터는 그 크기에서 계산기의 메모리에 격납할 수 없으므로 디스크 상에 둘 필요가 있다. 디스크는 랜덤 액세스가 늦기 때문에 처리에 제약이 생긴다. 또 고속 처리를 위해 데이터에 색인을 추가할 수 있지만 그 크기도 문제가 된다. 간결한 데이터 구조(succinct data structures)는 데이터나 그 색인을 극한까지 압축하면서 다양한 처리를 고속으로 수행할 수 있는 데이터 구조이다. 압축한 데이터를 메모리에 격납함으로써 고속 처리가 실현될 수 있다.
○ 기존의 압축 방법과 데이터 구조에서 빅 데이터 처리의 어려운 문제를 해결할 수 있는 간결한 데이터 구조는 1989년에 Jacobson에 의해 제안되었지만 당시는 크게 주목받지 못했다. 그러나 2000년에 Grossi와 Vitter에 의해 제안된 압축 접미사 배열(compressed suffix arrays)이 많은 주목을 끌어 간결한 데이터 구조의 연구가 활발하게 되었다. 이 글에서는 기본적인 간결한 데이터구조와 그것들을 이용한 빅 데이터 처리 예에 관해 설명한다.
○ 미국 및 유럽의 경우는 간결한 데이터 구조로 비트 벡터, 목구조, 문자열 검색 등 많은 연구 사례가 발표되고 있다. 또한 간결한 데이터 구조에 의한 데이터 구축 알고리즘도 발표되었으며 Google은 데이터 구축 툴을 개발하여 상용화하였다. 빅 데이터 적용 예로 게놈 어셈블리에서 상용 소프트웨어 다수가 발표되어 활용되고 있다. 국내 경우 플래시 메모리상에서 간결한 데이터 구조의 설계와 구현의 연구 외에는 연구 실적이 미미하다.
○ 정부는 빅 데이터 수집 시 비식별화 조치를 의무화하는 빅 데이터 개인정보보호 가이드라인을 발표하는 등 빅 데이터 활성화에 많은 노력을 기울이고 있다. 그러나 이와 같은 정책적인 지원과 아울러 빅 데이터 분석 등 처리 기술의 향상이 무엇보다 중요하다. 특히 빅 데이터를 쉽고 빠르게 분석할 수 있는 간편한 데이터 구축기술 개발이 필요하다. 향후 산학연이 합동으로 이 기술개발에 역량을 집중해야 하며 연구에 본 문헌이 참고 되었으면 한다.
- 저자
- Sadakane Kunihiko
- 자료유형
- 니즈학술정보
- 원문언어
- 일어
- 기업산업분류
- 정보통신
- 연도
- 2014
- 권(호)
- 97(5)
- 잡지명
- 電子情報通信學會誌
- 과학기술
표준분류 - 정보통신
- 페이지
- 379~383
- 분석자
- 신*래
- 분석물
-