无码

注冊
大數據
您當前所在位置:

大數據的前世今生

來源:  撰稿人:  發布時間:2015年05月19日 浏覽:
摘要:

  什么是大數據(big data)?它在百度百科上的概念是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的資訊。

  这 个晦涩难懂的概念用一个例子就能说清,刘邦为什么能战胜项羽?在历史的角度上原因很多,但从今天的话题来看,因为刘邦掌握了“大數據”。刘邦的队伍进入咸 阳后,萧何将秦朝有关国家户籍、地形、法令等图书档案一律收走。这些秦朝的律令图书档案就相当于大數據,使刘邦对天下的关塞险要、户口多寡、强弱形势、风 俗民情等了如指掌,从而制定了正确的方针政策和律令制度,找到了可靠的依据,对日后打败项羽、西汉政权的建立和巩固,起到了巨大的作用。这个故事看似不太 着边际,却一目了然的解释了“大數據”的作用。

  而在网络时代的当下,大數據的数量规模、复杂程度早已不是人工可以掌握的, 这个数据量有多大?举一个直观的例子:每天互联网上要发出2940亿封邮件,200万篇博客,1288个新应用可供下载,数据流量可以刻1.68亿张 DVD光盘。如此数量巨大、结构复杂、类型众多数据构成的数据集合,只有基于云计算的数据处理与应用模式下,通过数据的整合共享,交叉复用,才能形成智力 资源和知识服务能力。

  讲到这里,很多概念性的名词蹦出,比如“云计算、云平台”,恐怕有很多人不明白其含义,以及大數據的产生的背景和演变的过程,大數據应用的知识和常识以对社会发展产生的革命性变化等。对此我们专访了中金数据系统有限公司云计算研发部副总监关懿新。

  什么是大數據

  “大數據并非新鲜事物,它早就存在,以前在软件行业,叫数据挖掘,企业通过报表、分析、图表、走向趋势、生产量分析其中的关系,发掘出能反映的问题,数据挖掘更多体现在传统的软件应用里面,只不过大家不太注意。”关懿新说道。

  其实大數據并非一个确切的概念。最初这个概念是指需要处理的信息量过大,已经超出了一般电脑在处理数据时所能使用的内存量,因此工程师们必须改进处理数据的工具,这导致了新的处理技术的诞生。

  “大 数据的发掘能够被广泛应用也是因为技术的进步,使得海量的计算资源可以被计算。最早因为谷歌搜索引擎的崛起,建立一套不对外的海量数据处理平台 MapReduce,后来开源的软件仿照它的理论做了Hadoop平台。国内最早的巨型机,比如银河机、天河机也是非常昂贵。”关懿新进一步说到,随着互 联网的发展,这些技术使得人们可以处理的数据大大增加。而且这些数据不再需要用传统的數據庫表格来整齐地排列,一些可以消除僵化的层次机构和一致性的技术 出现,互联网公司可以收集大量更有价值的数据。

  2011年5月,麦肯锡全球研究院发布了名为《大數據:创新、竞争和生产力的 下一个前沿》的研究报告,报告中指出大數據将成为企业的核心资产,对大數據的分析将成为竞争的关键,并会引发新一轮生产力的增长与创新,对海量数据的有效 利用将成为企业在竞争中取胜的最有利武器。麦肯锡还预测通过对大數據的合理使用可以使零售业的经营利润提高60%以上。 麦肯锡的报告发出后,大數據的概念迅速得到了IT界的热捧。

  随着平台逐步的成熟,当这些数据进入商用,互联网公司顺利成章地 成为了最新处理技术的领头羊,他们甚至超过了很多有几十年经验的线下公司,成为新技术的领衔使用者。这仅仅是一个开始,当大數據时代进入了我们的生活,在 各行各业遍地开花的时候,正式开启了重大的时代转型。到今天“大數據”的概念已经在业界内外和大众媒体上沸沸扬扬地广为传播,并不断涌现出这个方向上的努 力与创新。

  雲計算與雲平台

  雲計算的概念最早出現在2006年,在當年8月舉行的搜索引擎戰略大會上,谷歌CEO施密特在回答主持人提問的時候,第一次使用了“雲”(cloud)這個詞來描述他的服務器。

  其 实这样的想法由来已久。早在1995年,为了对抗快速崛起的微软,甲骨文(Oracle)公司的CEO拉里?埃里森就推出了一款名为“网络计算机”的设 备,当时售价500美元,不需要安装微软的操作系统就可以使用。埃里森揶揄道:“个人电脑(PC)是一种可笑的设备。”他设想这样一台设备,可以像插入插 座获得电力一样,即插就能获得数据。但是,这款设备生不逢时,很快就退出了市场,因为当时的网络传输速度极慢,产生的数据也没有那么大,在自家的电脑上就 可以轻松完成。但是,埃里森的这个想法却深深地影响了硅谷,奠定了现在云计算的雏形。

  近幾年雲計算作爲一個時髦的名詞,在商界、學術界甚至政府界都拼命的在各自的産品、技術、報告和文件中與之關聯。一時間,雲存儲、雲手機、雲電腦等概念甚囂塵上,但始終有種雲裏霧裏的感覺。

  “云 计算是把大量的数据资源架构在互联网上,或者说是云端,一个你看不到,但是能够给你提供服务、能够调动大量的计算机资源给你提供服务的地方。比如说你需要 这种服务,需要十台计算机或者一百台计算机,但你不需要把计算机都买过来,云计算是可以提供大规模的计算机,远程地为你提供服务。”关懿新解释道。

  雲計算能夠提供可彈性的計算資源在商業上爲客戶進行服務。中金曾經爲某三維動畫制作公司做3D效果的渲染,因爲這家公司做完這部片子就不再需要這個服務,所以不打算購買計算機但可以租用了中金的計算機的服務。

  “客戶根據需要多長時間、多少台機器來付費就可以了。這樣的服務在互聯網企業剛起步的時候,需要的資源比較少,可以租少量的服務器,隨著業務的快速擴張,可以從雲端租用大量的服務器來支撐他們的業務。”關懿新說:“這樣比自己購買計算機省下了一大筆錢和精力。”

  云 平台是海量计算机管理的平台,它是虚拟的平台,且灵活可变,在中金数据系统有限公司采访时,记者看到了机房里一台台服务器,云平台的概念是用一个软件把这 一百台服务器管理起来,需要计算的时候就在上面产生一台虚拟机器,而这台机器所用的CPU是下面一百台物理机提供的。因为一台物理机可以根据它的能力产生 若干台虚拟的计算机,所以客户可以根据需求来定制这台虚拟计算机来提供服务,服务完成之后这台虚拟计算机就自动消掉了。

  云平 台分为几个层次,IAAS基础层是虚拟机一层,负责动态管理物理资源,PAAS平台层提供更基础的软件层,一般面向开发商,提供报表、数据分析、數據庫的 服务。SAAS是软件层,直接提供软件服务,为客户直接从手机端、PC端提供服务,客户直接从软件上看到结果。比如舆情服务、信息推荐等。

  大數據与云计算

  大 数据催生了云计算,反过来,云计算又进一步激发了人们对大數據的认识。从表面上看,大數據和云计算是两个完全不同的概念,从技术上看,大數據与云计算的关 系就像一对完美搭档,二者存在很多的交集,相互依赖。大數據必然无法用单台的计算机进行处理,必须采用分布式计算架构。它的特色在于对海量数据的挖掘,但 它必须依托云计算的分布式处理。

  大數據的出现,为云计算提供了释放能量的空间,也指明了云计算真正有价值的方向。大數據对云 环境有着很高的依赖,云计算不仅大大提高了企业处理大數據的计算能力,而且不需要投入和管理过多的硬件设备,按照需要进行付费,有效地优化现有的资源。从 这一层意义上来说,云计算为大數據提供了保管的场所和畅通的访问渠道。大數據作为企业的核心资产,对其进行有效的盘活,发掘出其在商业决策中的巨大价值是 云计算的内在灵魂和必然的升级方向。

  “互联网公司通过云计算为企业提供服务,近些年在全国建立了很多数据中心,当时提倡的概 念是集约化建设。通过建设集中的数据中心之后,很多单位只需要租用数据中心的服务。”关懿新打了个比方:“简单说,原来各个单位都在建小机房,后来集中成 一个大机房,提供动态的资源分配为各个单位服务。”

  逐渐这个概念得到推广,政府把原来只是在IT界的“云计算”推广得更大、 更远,开始建设云计算中心。“大约从2010年开始,云计算的计算能力升级,能够把若干台机器统一管理,进行大规模的运算,能对海量的数据进行运算。于是 互联网公司把数据挖掘应用的更加广泛。云计算中心分为几种,一种是私有云,在政府或企业范围内建作内部使用;一种是公有云,在互联网企业界,比如微软、谷 歌、阿里巴巴等,公众可以访问,但云计算的安全性、可用性以及成本等方面仍存在诸多的疑虑;另一种是混合云,就是把私有云和公有云混合在一起。”关懿新说 道:“当大數據和百姓的衣食住行息息相关时,是它推广速度最快的时候。比如前一段出现的腾讯推出的嘀嘀打车、平安推出的网络保险,就是基于大數據的分析和 挖掘,对数据进行分析,推算出用户的需求,产生商业的应用来影响到每个人的生活。”

  “什么是大數據?”当我们再回头思考时,这个问题看似简单,却也很难回答。仁者见仁,智者见智,有人说,大數據就像一个神奇的钻石矿,当它的首要价值被发掘后仍能不断给予。也有人说大數據像漂浮在海洋中的冰山,第一眼只能看到冰山的一角,而大部分隐藏在表面之下……

  大數據不仅是一个技术,未来或许将成为一个行业,依然让人琢磨不透,这就是大數據的魅力。

責任編輯:系統管理員
分享文章到:
0
浏覽次數:
】 【 打印本頁】 【 關閉窗口
因特网信息服务经营许可证:电信业务审批[2004]885号 京ICP证040699号 海淀公安分局备案号:1101081900 广告经营许可证:京海工商广字第9990号