文档库 最新最全的文档下载
当前位置:文档库 › 学习成长_7月份_迎接大数据时代

学习成长_7月份_迎接大数据时代

:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。”

1、何为大数据?

大数据(big data)是指“无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合”,但是不能简单理解为大数据只是一堆数字,其核心还是如何挖掘数据、如何利用数据表达、如何利用数据进行预测和决策。






图1:大数据概况

我们生活在一个被信息和数据包围的空间。到2012年,Facebook每天评论32亿条、新上传照片近3亿张,每周新增图片容量60TB,图片总量约 2600亿张,已超过20PB,平均每秒3500次写操作。亚马逊目前EC2有450000台服务器。谷歌搜索、Facebook的帖子和微博消息使得人 们的行为和情绪的细节化测量成为可能。有46亿全球移动电话

第1页共2页10/24/2013

用户有1亿美元和20亿人访问互联网。 2、大数据特征 大数据典型特征为:“4V+1O”,即大量(Volume)、多样(Variety)、价值(Value)、快速(Velocity)、开放(Open)。

大 量(Volume)。存储量大、计算量大。截止到2012年,数据量已经从TB(1024GB=1TB)级别跃升到PB(1024TB=1PB)、 EB(1024PB=1EB)乃至ZB(1024EB=1ZB)级别。国际数据公司(IDC)的研究结果表明,2008年全球产生的数据量为 0.49ZB,2009年的数据量为0.8ZB,2010年增长为1.2ZB,2011年的数量更是高达1.82ZB,相当于全球每人产生200GB以上 的数据。而到2012年为止,人类生产的所有印刷材料的数据量是200PB,全人类历史上说过的所有话的数据量大约是5EB。IBM的研究称,整个人类文 明所获得的全部数据中,有90%是过去两年内产生的。而到了2020年,全世界所产生的数据规模将达到今天的44倍。

多 样(Variety)。来源多、格式多。这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以文本为主的结构化数据,非结构 化数据越来越多,包括网络日志、音频、视频、图片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。

价值(Value)。沙漠淘金。价值密度的高低与数据总量的大小成反比。以视频为例,一部1小时的视频,在连续不间断的监控中,有用数据可能仅有一二秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”成为目前大数据背景下亟待解决的难题。

快速(Velocity)。增长速度快、处理速度快。这是大数据区分于传统数据挖掘的最显著特征。根据IDC的“数字宇宙”的报告,预计到2020年,全球数据使用量将达到35.2ZB

相关文档
相关文档 最新文档