클라우드에서 빅 데이터 분석: Spark 대 MPI/OpenMP
- 전문가 제언
-
○ 이 문헌은 고성능이며 다중기계와 다중코어 인프라를 이용하는 집적 구조인 Beowulf의 MPI/OpenMP와 메모리 컴퓨팅의 반복 알고리즘이 목표인 Spark에서 실행되는 두 개의 분산 컴퓨팅 플레임워크를 조사 비교한다. 가상 기계 클러스터를 만들고 플레임워크를 운영하며 두 감시 기계학습 알고리즘인 KNN(K-Nearest Neighbor: K-최근접 이웃)과 Pegasos SVM(Support Vector Machine: 벡터 지원 기계)을 평가하기 위하여 GCP(Google Cloud Platform) 서비스를 사용한다.
○ 입자물리 데이터 집합을 이용한 실행결과는 MPI/OpenMP가 Spark에 대하여 처리 속도에서 한 자릿수 이상으로 우월하고, 더욱 지속적인 실행을 제공한다. Spark는 노드 장애와 데이터 복제와 같은 다른 측면을 다루는 보다 나은 데이터 처리 인프라와 가능성을 보인다.
○ 최근의 빅 데이터 분야의 최대 도전의 하나는 타당한 시간 내에 방대한 양의 정보를 처리하는 인간의 무능이라 하였다. 최근에 ‘알파고’와 이세돌의 바둑 대국에서 인간이 패함으로써 빅 데이터를 기반으로 하는 기계학습의 놀라운 상황이 세상을 떠들썩하게 한 바 있다. ‘알파고’와의 바둑은 이길 수 없는, 해서는 안 되는 게임이었다. 병렬로 연결된 슈퍼컴퓨터는 이세돌뿐만 아니라 세상에 있는 거의 모든 기보를 학습하여 인지하고 있었을 것이다. 이 사실이 우리를 두렵게 하고 빅 데이터 처리의 중요성을 깊이 각인하였다.
○ 우리도 빅 데이터 처리의 중요성을 인지하고 대학, 연구소 및 관련 업계가 연구와 기술개발에 매진하고 있다. 최근의 한 자료에 따르면 국내 빅 데이터 기술 및 서비스 시장은 2018년까지 연평균 26.4%로 성장하여 3,117억 원 규모가 될 것으로 전망되었다. 또한 2015년 기준 빅 데이터 인프라, 소프트웨어, 서비스 부분은 각각 51.4%, 20.9%, 27.7%의 비중으로 시장을 형성할 것으로 전망되었다. 이 상황에서 우리는 이 문헌의 연구와 같이 기존의 잘 알려진 기법의 비교 연구를 통한 기존 기술의 이해를 바탕으로 빅 데이터를 처리하는 기술의 연구개발과 활용에 우선하여 힘을 집중해야 한다.
- 저자
- Jorge L. Reyes-Ortiz, et al.
- 자료유형
- 니즈학술정보
- 원문언어
- 영어
- 기업산업분류
- 정보통신
- 연도
- 2015
- 권(호)
- 53()
- 잡지명
- Procedia Computer Science
- 과학기술
표준분류 - 정보통신
- 페이지
- 121~130
- 분석자
- 김*진
- 분석물
-