无码

注冊
大數據
您當前所在位置:

大數據分析及其工具

來源:  撰稿人:  發布時間:2015年05月19日 浏覽:
摘要:

  大數據分析是指对规模巨大的数据进行分析,主要包括以下五个方面:

  1. Analytic Visualizations(可视化分析)

  不管是對數據分析專家還是普通用戶,數據可視化是數據分析工具最基本的要求。可視化可以直觀的展示數據,讓數據自己說話,讓觀衆聽到結果。

  2. Data Mining Algorithms(数据挖掘算法)

  可视化是给人看的,数据挖掘就是给机器看的。集群、分割、孤立点分析还有其他的算法让我们深入数据内部,挖掘价值。这些算法不仅要处理大數據的量,也要处理大數據的速度。

  3. Predictive Analytic Capabilities(预测性分析能力)

  數據挖掘可以讓分析員更好的理解數據,而預測性分析可以讓分析員根據可視化分析和數據挖掘的結果做出一些預測性的判斷。

  4. Semantic Engines(语义引擎)

  我們知道由于非結構化數據的多樣性帶來了數據分析的新的挑戰,我們需要一系列的工具去解析,提取,分析數據。語義引擎需要被設計成能夠從“文檔”中智能提取信息。?

  5. Data Quality and Master Data Management(数据质量和数据管理)

  數據質量和數據管理是一些管理方面的最佳實踐。通過標准化的流程和工具對數據進行處理可以保證一個預先定義好的高質量的分析結果。

  大數據分析的工具主要包括数据仓库、数据集市、前端展现等。目前开源工具中广泛使用的是Hadoop,Hadoop是一个项目的总称,主要是由HDFS和 MapReduce组成。其中HDFS是Google File System(GFS)的开源实现,MapReduce是Google MapReduce的开源实现。

  Google最早建立了大數據分析工具体系,Google的数据中心使用廉价的Linux PC机组成集群,在上面运行各种应用。即使是分布式开发的新手也可以迅速使用Google的基础设施。核心组件是3个:

  ⒈GFS(Google File System)。一个分布式文件系统,隐藏下层负载均衡,冗余复制等细节,对上层程序提供一个统一的文件系统API接口。Google根据自己的需求对它 进行了特别优化,包括:超大文件的访问,读操作比例远超过写操作,PC机极易发生故障造成节点失效等。GFS把文件分成64MB的块,分布在集群的机器 上,使用Linux的文件系统存放。同时每块文件至少有3份以上的冗余。中心是一个Master节点,根据文件索引,找寻文件块。详见Google的工程 师发布的GFS论文。

  ⒉MapReduce。Google发现大多数分布式运算可以抽象为MapReduce操作。Map是把输入Input分解成中间的Key/Value 对,Reduce把Key/Value合成最终输出Output。这两个函数由程序员提供给系统,下层设施把Map和Reduce操作分布在集群上运行, 并把结果存储在GFS上。

  ⒊BigTable。一个大型的分布式數據庫,这个數據庫不是关系式的數據庫。像它的名字一样,就是一个巨大的表格,用来存储结构化的数据。

  当前用于分析大數據的工具主要有开源与商用两个生态圈。

  开源大數據生态圈:

  1、Hadoop HDFS、HadoopMapReduce, HBase、Hive 渐次诞生,早期Hadoop生态圈逐步形成。

  2、. Hypertable是另类。它存在于Hadoop生态圈之外,但也曾经有一些用户。

  3、NoSQL,membase、MongoDb

  商用大數據生态圈:

  1、一体机數據庫/数据仓库:IBM PureData(Netezza), OracleExadata, SAP Hana等等。

  2、数据仓库:TeradataAsterData, EMC GreenPlum, HPVertica 等等。

  3、数据集市:QlikView、 Tableau 、 以及国内的Yonghong Data Mart 。

責任編輯:系統管理員
分享文章到:
0
浏覽次數:
】 【 打印本頁】 【 關閉窗口
因特网信息服务经营许可证:电信业务审批[2004]885号 京ICP证040699号 海淀公安分局备案号:1101081900 广告经营许可证:京海工商广字第9990号