posted by 권오성의 Biomedical Engineering 2014. 8. 13. 19:58

빅데이터란 과연 무엇인가? 기존 데이터에 비해 방대하게 커진 데이터를 말한다.

하둡 프로그래밍(Hadoop Programming)은 빅데이터 시스템중 하나로 빅데이터의 기술 처리를 위해 태어난 분산파일시스템이다. 하둡은 분산파일 시스템과, 맵리듀스(mapreduce)로 구성되어있다.

하이브(hive)는 하둡프로그램을 쉽게 처리하기 위한 솔루션이다. 또한 데이터베이스들을 담고 있는 윈도 레지스트리(Windows Registry)에서 가장 높은 수준의 조직을 일컫기도 한다. 하이브는 하둡을 데이터웨어하우스(DW)로 운영할 수 있게 해주며, 수많은 레지스트리의 논리를 구분할 때 사용할 수 있다는 강점이 있다.

R프로그래밍은 통계학 정보를 처리하는 분석 과정이며, 통계 계산과 그래픽을 위한 프로그램 언어이자 소프트웨어 환경이다. R은 기타 유료 통계시스템인 SAS, SPSS와 비교해도 성능면에서 큰 차이가 안 나 요즈음 새롭게 떠오르는 프로그래밍 방식이다.