当前位置：文档库 › 中国人民大学+王珊+-+架构大数据_挑战_现状与展望

中国人民大学+王珊+-+架构大数据_挑战_现状与展望

第34卷第10期2011年10月

计算机学报

CH INESE JOURNA L OF COM PU TERS

V ol.34N o.10

Oct.2011

收稿日期:2011-08-12;最终修改稿收到日期:2011-09-15.本课题得到国家重大科技专项核高基项目(2010ZX01042-001-002)、国家自然科学基金(61070054,61170013)、中国人民大学科学研究基金(中央高校基本科研业务费专项资金,10XNI018)、中国人民大学研究生基

架构大数据:挑战、现状与展望

王珊

1),2)

王会举

1),2)

覃雄派

1),2)

周烜

1),2)

1)(

数据工程与知识工程教育部重点实验室(中国人民大学) 北京 100872)

(中国人民大学信息学院北京 100872)

摘要大数据分析相比于传统的数据仓库应用,具有数据量大、查询分析复杂等特点.为了设计适合大数据分析的数据仓库架构,文中列举了大数据分析平台需要具备的几个重要特性,对当前的主流实现平台)))并行数据库、M apR educe 及基于两者的混合架构进行了分析归纳,指出了各自的优势及不足,同时也对各个方向的研究现状及作者在大数据分析方面的努力进行了介绍,对未来研究做了展望.关键词大数据;大规模可扩展;M apReduce;并行数据库;深度分析中图法分类号T P 311 DOI 号:10.3724/SP.J.1016.2011.01741

Architecting Big Data:Challenges,Studies and Forecasts

WANG Shan

1),2)

WANG H u-i Ju

1),2)

QIN Xiong -Pai

1),2)

ZH OU Xuan

1),2)

(K ey L abor ator y of Data Eng ineering and K now led ge Eng ineering (Renmin Univ ersity of Ch ina)of M inistry of E ducation,B eij ing 100872)

(S chool of I nf ormation ,R enmin Univ ersity of Ch ina ,B eij ing 100872)

Abstract Compar ed w ith traditio nal data w arehouse applications,big data analy tics are huge and com plex.T o design a favo rable architecture for big data analy tics,this paper lists som e key fea -tures fo r big data analytics,sum marizes cur rent main implem entation platfor ms(parallel databas -es,M apReduce,and hybrid architectures based o n them),and points their pros and cons.Some current resear ches are also inv estig ated,our w ork ar e introduced and some challeng ing resear ch

pro blems in the future are discussed.

Keywords big data;large scale;M apReduce;parallel database;deep analytics

1 引言

最近几年,数据仓库又成为数据管理研究的热点领域,主要原因是当前数据仓库系统面临的需求在数据源、需提供的数据服务和所处的硬件环境等方面发生了根本性的变化(详见111节),这些变化是我们必须面对的.

本文在大数据的时代背景下,对现有数据仓库

系统实现方案(主要是并行数据库和M apReduce)

进行重新审视,期望能为设计满足时代需求的数据仓库系统提供理论参考.限于篇幅,本文主要关注不同数据仓库实现方案的主体架构及其缺陷在最近几年的改进情况.依据研究立足点的不同,本文将该领域的研究归为三大类:并行数据库、M apReduce 、并行数据库和M apReduce 技术的混合架构.其中第三类研究又细分为:并行数据库主导型、MapReduce 主导型、并行数据库和MapReduce 集成型三种.本

文第1节分析大数据时代,数据仓库所面临的问题及挑战;第2节列出大数据时代的数据仓库平台需具备的几个重要特性;第3节到第5节就这几个特性对各类平台进行归纳分析;第6节对最新研究做一跟踪归纳;第7节介绍中国人民大学在大数据分析方面的研究工作;第8节对未来研究做出展望;第9节总结全文.1.1 三个变化

(1)数据量.由T B 级升至PB 级,并仍在持续爆炸式增长.根据WinterCor p 的调查显示,最大的数据仓库中的数据量,每两年增加3倍[1](年均增长率为173%),其增长速度远超摩尔定律增长速度.照此增长速度计算,2015年最大数据仓库中的数据量将逼近100PB.

(2)分析需求.由常规分析转向深度分析(Deep Analy tics).数据分析日益成为企业利润必不可少的支撑点.根据T DWI 对大数据分析的报告[2]

(如图1),企业已经不满足于对现有数据的分析和监测,而是更期望能对未来趋势有更多的分析和预测,以增强企业竞争力.这些分析操作包括诸如移动平均线分析、数据关联关系分析、回归分析、市场篮分析等复杂统计分析,我们称之为深度分析.值得补充的是,本文中的大数据分析不仅仅指基于大数据上的深度分析,也包括常规分析

图1 分析的趋势

(3)硬件平台.由高端服务器转向由中低端硬件构成的大规模机群平台.由于数据量的迅速增加,并行数据库的规模不得不随之增大,从而导致其成本的急剧上升.出于成本的考虑,越来越多的企业将应用由高端服务器转向了由中低端硬件构成的大规模机群平台.

个层次,数据源中的数据首先通过ETL 工具被抽取到数据仓库中进行集中存储和管理,再按照星型模

型或雪花模型组织数据,然后OLAP 工具从数据仓库中读取数据,生成数据立方体(M OLAP)或者直接访问数据仓库进行数据分析(ROLA P).在大数据时代,此种计算模式存在两个问题:

问题1.数据移动代价过高.在数据源层和分析层之间引入一个存储管理层,可以提升数据质量并针对查询进行优化,但也付出了较大的数据迁移代价和执行时的连接代价:数据首先通过复杂且耗时的ETL 过程存储到数据仓库中,在OLA P 服务器中转化为星型模型或者雪花模型;执行分析时,又通过连接方式将数据从数据库中取出.这些代价在T B 级时也许可以接受,但面对大数据,其执行时间至少会增长几个数量级.更为重要的是,对于大量的即席分析,这种数据移动的计算模式是不可取的.

图2 一个典型的数据仓库架构

问题2.不能快速适应变化.传统的数据仓库假设主题是较少变化的,其应对变化的方式是对数据源到前端展现的整个流程中的每个部分进行修改,然后再重新加载数据,甚至重新计算数据,导致其适应变化的周期较长.这种模式比较适合对数据质量和查询性能要求较高、而不太计较预处理代价的场合.但在大数据时代,分析处在变化的业务环境中,这种模式将难以适应新的需求.

1.3 一个鸿沟

在大数据时代,巨量数据与系统的数据处理能力之间将会产生一个鸿沟:一边是至少PB 级的数据量,另一边是面向传统数据分析能力设计的数据仓库和各种BI 工具.如果这些系统或工具发展缓慢,该鸿沟将会随着数据量的持续爆炸式增长而逐

1742计算机学报2011年

是权益之策,并非系统级解决方案.而且,舍弃的数据在未来可能会重新使用,以发掘更大的价值.

2期望特性

本节我们列出对大数据进行分析时,数据仓库系统需具备的几个重要特性(表1所示).

表1大数据分析平台需具备的特性

特性简要说明

高度可扩展性横向大规模可扩展,大规模并行处理

高性能快速响应复杂查询与分析

高度容错性查询失败时,只需重做部分工作

支持异构环境对硬件平台一致性要求不高,适应能力强较低的分析延迟业务需求变化时,能快速反应

易用且开放接口既能方便查询,又能处理复杂分析

较低成本较高的性价比

向下兼容性支持传统的商务智能工具

高度可扩展性.一个明显的事实是,数据库不能依靠一台或少数几台机器的升级(scale-up纵向扩展)满足数据量的爆炸式增长,而是希望能方便地做到横向可扩展(scale-out)来实现此目标.

普遍认为shared-no thing无共享结构(每个节点拥有私有内存和磁盘,并且通过高速网络同其它节点互连)具备较好的扩展性[4].分析型操作往往涉及大规模的并行扫描、多维聚集及星型连接操作,这些操作也比较适合在无共享结构的网络环境运行. Teradata即采用此结构,Oracle在其新产品Ex adata 中也采用了此结构.

高性能.数据量的增长并没有降低对数据库性能的要求,反而有所提高.软件系统性能的提升可以降低企业对硬件的投入成本、节省计算资源,提高系统吞吐量.巨量数据的效率优化,并行是必由之路. 1PB数据在50MB/s速度下串行扫描一次,需要230天;而在6000块磁盘上,并行扫描1PB数据只需要1个小时.

高度容错.大数据的容错性要求在查询执行过程中,一个参与节点失效时,不需要重做整个查询.而机群节点数的增加会带来节点失效概率的增加.在大规模机群环境下,节点的失效将不再是稀有事件(Goo gle报告,平均每个M apReduce数据处理任务就有112个工作节点失效[5]).因此在大规模机群环境下,系统不能依赖于硬件来保证容错性,要更多大量同构的计算机是不可取的,而且也会在未来添置异构计算资源.此外,不少企业已经积累了一些闲置的计算机资源,此种情况下,对异构环境的支持可以有效地利用这些闲置计算资源,降低硬件成本的投入.还需特别关注的是,在异构环境下,不同节点的性能是不一样的,可能出现/木桶效应0,即最慢节点的性能决定整体处理性能.因此,异构的机群需要特别关注负载均衡、任务调度等方面的设计.

较低的分析延迟.分析延迟指的是分析前的数据准备时间.在大数据时代,分析所处的业务环境是变化的,因此也要求系统能动态地适应业务分析需求.在分析需求发生变化时,减少数据准备时间,系统能尽可能快地做出反应,快速地进行数据分析.

易用且开放的接口.SQL的优点是简单易用,但其主要用于数据的检索查询,对于大数据上的深度分析来讲,是不够的.原因在于:(1)其提供的服务方式依赖于数据移动来实现:将数据从数据库中取出,然后传递给应用程序,该实现方式在大数据时代代价过高;(2)复杂的分析功能,如R或M atlab 中的分析功能,SQL是难以胜任的.因此,除对SQL 的支持外,系统还应能提供开放的接口,让用户自己开发需要的功能.设计该接口时,除了关注其易用性和开放性,还需要特别注意两点隐藏的要求:(1)基于接口开发的用户自定义函数,能自动在机群上并行执行;(2)分析在数据库内进行,即分析尽可能靠近数据.

较低的成本.在满足需求的前提下,某技术成本越低,其生命力就越强.需要指出的是成本是一个综合指标,不仅仅是硬件或软件的代价,还应包括日常运维成本(网络费用、电费、建筑等)和管理人员成本等.据报告,数据中心的主要成本不是硬件的购置成本,而是日常运维成本.因此,在设计系统时需要更多地关注此项内容.

向下兼容性.数据仓库发展的30年,产生了大量面向客户业务的数据处理工具(如Informactica、DataStag e等)、分析软件(如SPSS、R、M atlab等)和前端展现工具(如水晶报表)等.这些软件是一笔宝贵的财富,已被分析人员所熟悉,是大数据时代中小规模数据分析的必要补充.因此,新的数据仓库需考虑同传统商务智能工具的兼容性.由于这些系统往往提供标准驱动程序,如ODBC、JDBC等,这项需

1743

10期王珊等:架构大数据:挑战、现状与展望

3并行数据库

并行数据库起源于20世纪80年代,当前主流的并行数据库都同早期的Gam ma[6]和Grace[7]等并行数据库类似.这些数据库都支持标准SQL,并且实现了数据库界过去30年提出的许多先进技术.其主要采用shar ed-nothing结构,将关系表在节点间横向划分,并且利用优化器来对执行过程进行调度和管理.其目标是高性能和高可用性.

并行数据库的最大优势在于性能.这主要得益于数据库界近几十年的研究成果)))许多先进的技术手段及算法,如索引、数据压缩、物化视图、结果缓冲、I/O共享、优化的数据连接等.但是在大数据时代,如前言所述,数据移动的实现方式将影响其性能.

并行数据库通过SQL向外提供数据访问服务, SQ L因其简单易用的特点而被广泛使用.因此,大多BI工具都支持基于标准SQL的数据交互方式,使得关系数据库能较好地兼容当前多数BI工具.某些数据库,如IBM DB2还针对一些BI工具进行了优化.但在大数据分析面前,SQL接口面临巨大挑战.SQL的优势源于其对底层数据访问的封装,但封装在一定程度上影响了其开放性.而且并行数据库提供的用户自定义函数大都是基于单数据库实例设计的,从而不能在机群上并行执行,也即意味着传统的实现方式不适合大数据的处理及分析.而且,在并行数据库中实现用户自定义函数往往需要经过复杂的系统交互,甚至要熟悉数据库的内部结构及系统调用等,从而难以使用.

并行数据库在扩展性、容错性、成本、对异构环境的支持等几项上有所欠缺.这几项实际是相互影响的,我们以其最大问题)))扩展性为主线展开讨论.并行数据库大多支持有限扩展,一般可扩至数百节点的规模,尚未有数千节点规模的应用案例.并行数据库扩展性有限主要因为如下几点:(1)并行数据库软件级容错能力较差.并行数据库基于高端硬件设计,并且假设查询失败属于稀有事件.因此当查询失败时,一般采取重做查询的方式.而在大规模机群环境下,查询失败将会变为一个普通事件.极端情况下,并行数据有可能出现不停重做查询的局面;模机群在现实中是较难实现的.因而,对异构硬件的支持能力影响了其扩展性;(3)并行数据库若做到大规模可扩展,其代价将会较高(需基于高端硬件来保证可靠性,需购买昂贵的软件系统),从而限制了其扩展性;(4)根据CAP理论①[8],在分布式系统中,数据一致性(Consistency)、可用性(Availability)、子网可分解性(Netwo rk Partitioning)不可同时兼得,选择其中任两项,便会损害另一项.并行数据库追求的是数据一致性和系统的可用性,从而影响了它的扩展能力.

此外,如112节所讨论的,基于并行数据库实现的传统数据仓库借助于外围工具(ET L工具、OLAP 产品、BI报表工具、统计分析软件等)来完成数据的预处理和分析展现任务,导致其数据处理及分析过程涉及大量的数据迁移和计算,分析延迟往往较高.

4MapReduce

M apReduce[5]是2004年由Go ogle提出的面向大数据集处理的编程模型,起初主要用作互联网数据的处理,例如文档抓取、倒排索引的建立等.但由于其简单而强大的数据处理接口和对大规模并行执行、容错及负载均衡等实现细节的隐藏,该技术一经推出便迅速在机器学习、数据挖掘、数据分析等领域得到广泛应用[9].

M apReduce将数据处理任务抽象为一系列的M ap(映射)-Reduce(化简)操作对.M ap主要完成数据的过滤操作,Reduce主要完成数据的聚集操作.输入输出数据均以〈key,value〉格式存储.用户在使用该编程模型时,只需按照自己熟悉的语言实现M ap函数和Reduce函即可,M apReduce框架会自动对任务进行划分以做到并行执行.

下面本文将以基于M apReduce的开源实现H ado op[10]为主,对其主要特性进行介绍.

M apReduce是面向由数千台中低端计算机组成的大规模机群而设计的,其扩展能力得益于其shared-nothing结构、各个节点间的松耦合性和较强的软件级容错能力:节点可以被任意地从机群中移除,而几乎不影响现有任务的执行.该技术被称为RA IN(Redundant/Reliable Arr ay of Independent (and Inex pensive)No des).MapReduce卓越的扩展

1744计算机学报2011年

等)得到了充分验证.M apReduce 对硬件的要求较低,可以基于异构的廉价硬件来搭建机群,且免费开

源,因此其构建成本低于并行数据库.但基于MapReduce 的应用软件相对较少,许多数据分析功能需要用户自行开发,从而会导致使用成本的增加.作为开源系统,MapReduce 具有完全的开放性:其〈key,v alue 〉存储模型具有较强的表现力,可以存储任意格式的数据;M ap 和Reduce 两个基本的函数接口也给用户提供了足够的发挥空间,可以实现各种复杂的数据处理功能.但这种开放性也带来一个问题,就是将本来应由数据库管理系统完成的工作,诸如文件存储格式的设计、模式信息的记录、数据处理算法的实现等,转移给了程序员,从而导致程序员负担过重.程序员水平对系统处理性能起决定性作用.在某些情况下,写MapReduce 程序的时间远大于写SQL 语句的时间,部分复杂的BI 报表分析,可能仅程序的编写和调试就要耗费几天的时间.

基于M apReduce 平台的分析,无需复杂的数据预处理和写入数据库的过程,而是可以直接基于平面文件进行分析,并且其采用的计算模式是移动计算而非移动数据,因此可以将分析延迟最小化.

在同等硬件条件下,MapReduce 性能远低于并行数据库

[11]

,这是由其最初的设计定位决定的.

MapReduce 的设计初衷是面向非结构化数据的处理.这些数据具有数据量大,处理复杂等特点,而且往往是一次性处理.为了获得较好的扩展能力和容错能力,M apReduce 采取了基于扫描的处理模式和对中间结果步步物化的执行策略,从而导致较高的I/O 代价.为了减少数据预处理时间,M apReduce 没有使用模式、索引、物化视图等技术手段.其数据预处理仅是一次数据加载操作,但由此导致了一个问题)))较高的元组解析代价[12].在M apReduce

环境下,每个查询都是直接从文件系统中读入原始数据文件,而非传统的从数据库中读入经处理过的文件,因此其元组解析代价远高于关系数据库.对数据分析领域来说,连接是关键操作(如传统的星型查询和雪花查询均是依赖于连接来处理查询),但M apReduce 处理连接的性能尤其不尽如人意.原因在于MapReduce 最初是针对单数据集设计的处理模型,而连接操作往往涉及多个数据集.在利用M apReduce 实现连接时,最直接的方式是每个任务执行一个属性上的连接操作,然后将多个MapReduce 任务通过物化的中间结果串接起来.这种实现方式往往涉及中间结果的读写,从而导致大量的I/O 操作和网络传输.

M apReduce 目前基本不兼容现有的BI 工具.原因在于其初衷并不是要成为数据库系统,因此它并未提供SQ L 接口.但已有研究致力于SQL 语句与M apReduce 任务的转换工作(例如H ive),进而有可能实现M apReduce 与现存BI 工具的兼容.

5 并行数据库和MapReduce 的

混合架构

基于以上分析,我们可以清楚地看出,基于并行数据库和MapReduce 实现的数据仓库系统都不是大数据分析的理想方案.针对两者哪个更适合时代需求的问题,业界近年展开了激烈争论.当前基本达成如下共识:并行数据库和MapReduce 是互补关系,应该相互学习[13-14].基于该观点,大量研究着手将两者结合起来,期望设计出兼具两者优点的数据分析平台.这种架构又可以分为三类:并行数据库主导型、MapReduce 主导型、M apReduce 和并行数据库集成型(表2对3种架构进行了对比分析).

表2 混合架构型解决方案对比分析

解决方案

着眼点

代表系统缺陷

并行数据库主导型利用M apReduce 技术来增强其开放性,以实现处理能力的可扩展

Greenplum As ter Data 规模扩展性未改变M apReduce 主导型

学习关系数据库的S QL 接口及模式支持等,改善其易用性

H ive Pig Latin 性能问题未改变

并行数据库和M apReduce 集成型

集成两者,使两者各自做各自擅长的工作

H adoopDB

只有少数查询可以下推至数据库层执行,各自的某些优点在集成后也丧失了Vertica 性能和扩展性仍不能兼得T eradata

规模扩展性未变

5.1 并行数据库主导型

(已被EMC 收购)和Aster Data(已被T eradata 收购).

1745

10期王珊等:架构大数据:挑战、现状与展望

该框架允许用户使用C++、java、Python等语言编写MapReduce函数,编写的函数可以作为一个子查询在SQL中使用,从而同时获得SQL的易用性和MapReduce的开放性.不仅如此,Aster Data基于MapReduce实现了30多个统计软件包,从而将数据分析推向数据库内进行(数据库内分析),大大提升了数据分析的性能.

Greenplum也在其数据库中引入了M apReduce 处理功能[16].其执行引擎可以同时处理SQ L查询和MapReduce任务.这种方式在代码级整合了SQL 和MapReduce:SQ L可以直接使用M apReduce任务的输出,同时M apReduce任务也可以使用SQL 的查询结果作为输入.

总的来说,这些系统都集中于利用M apReduce 来改进并行数据库的数据处理功能,其根本性问题)))可扩展能力和容错能力并未改变.

5.2MapReduce主导型

该方向的研究主要集中于利用关系数据库的SQ L接口和对模式的支持等技术来改善M apReduce 的易用性,代表系统是H ive[17]、Pig Latin[18]等.

H iv e是Faceboo k提出的基于H adoop的大型数据仓库,其目标是简化H adoo p上的数据聚集、ad-hoc查询及大数据集的分析等操作,以减轻程序员的负担.它借鉴关系数据库的模式管理、SQL接口等技术,把结构化的数据文件映射为数据库表,提供类似于SQL的描述性语言H iveQL供程序员使用,可自动将H iveQL语句解析成一优化的Ma-pReduce任务执行序列.此外,它也支持用户自定义的MapReduce函数.

Pig Latin是Yahoo!提出的类似于H iv e的大数据集分析平台.两者的区别主要在于语言接口.

H ive提供了类似SQL的接口,Pig Latin提供的是一种基于操作符的数据流式的接口.图3是Pig Latin在处理查询时的一个操作实例.该查询的目的是找出/年龄在18~25周岁之间的用户(U sers)最频繁访问的5个页面(Pages)0.从图3可以看出, Pig提供的操作接口类似于关系数据库的操作符(对应图中右侧部分中的每一行命令),用户查询的脚本类似于逻辑查询计划(对应图中左侧部分).因此,也可以说Pig利用操作符来对H adoop进行封装,H ive利用SQL进行封装.

图3Pig L atin的一个查询示例(右边为实际脚本)

Stonebraker等人设计的V ertica[21]数据库和N CR 公司的T er adata[22]数据库.

H ado opDB的核心思想是利用H adoop作为调度层和网络沟通层,关系数据库作为执行引擎,尽可能地将查询压入数据库层处理.目标是想借助H ado op框架来获得较好的容错性和对异构环境的支持;通过将查询尽可能推入数据库中执行来获得关系数据库的性能优势.H ado opDB的思想是深远的,但目前尚无应用案例,原因在于:(1)其数据预处理代价过高:数据需要进行两次分解和一次数据库加载操作后才能使用;(2)将查询推向数据库层只是少数情况,大多数情况下,查询仍由H ive完成.因为数据仓库查询往往涉及多表连接,由于连接的复杂性,难以做到在保持连接数据局部性的前提下将参与连接的多张表按照某种模式划分;(3)维护代价过高.不仅要维护H ado op系统,还要维护每个数据库节点;(4)目前尚不支持数据的动态划分,需要手工方式将数据一次性划分好.总的来说,H a-do opDB在某些情况下,可以同时实现关系数据库的高性能特性和M apReduce的扩展性、容错性,但同时也丧失了关系数据库和M apReduce的某些优点,比如M apReduce较低的预处理代价和维护代价、关系数据库的动态数据重分布等.

Vertica采用的是共存策略:根据H adoo p和Vertica各自的处理优势,对数据处理任务进行划分.比如H adoop负责非结构化数据的处理,Vertica 负责结构化数据的处理;H adoop负责耗时的批量复杂处理,Vertica负责高性能的交互式查询等,从而将两者结合起来.Ver tica实际采用的是两套系统,同时支持在M apReduce任务中直接访问Ver tica数据库中的数据.由于结构化数据仍在Vertica中处理,在处理结构化大数据上的查询分析时,仍面临扩

1746计算机学报2011年

与前两者相比,Teradata的集成相对简单. Teradata采用了存储层的整合:M apReduce任务可以从T er adata数据库中读取数据,T eradata数据库也可以从Hadoop分布式文件系统上读取数据.同样,Teradata和Hadoop各自的根本性问题都未解决.

6研究现状

对并行数据库来讲,其最大问题在于有限的扩展能力和待改进的软件级容错能力;MapReduce的最大问题在于性能,尤其是连接操作的性能;混合式架构的关键是①,如何能尽可能多地把工作推向合适的执行引擎(并行数据库或M apReduce).本节对近年来在这些问题上的研究做一分析和归纳.

6.1并行数据库扩展性和容错性研究

华盛顿大学在文献[23]中提出了可以生成具备容错能力的并行执行计划优化器.该优化器可以依靠输入的并行执行计划、各个操作符的容错策略及查询失败的期望值等,输出一个具备容错能力的并行执行计划.在该计划中,每个操作符都可以采取不同的容错策略,在失败时仅重新执行其子操作符(在某节点上运行的操作符)的任务来避免整个查询的重新执行.

MIT于2010年设计的Osprey系统[24]基于维表在各个节点全复制、事实表横向切分并冗余备份的数据分布策略,将一星型查询划分为众多独立子查询.每个子查询在执行失败时都可以在其备份节点上重新执行,而不用重做整个查询,使得数据仓库查询获得类似M apReduce的容错能力.

数据仓库扩展性方面的研究较少,中国人民大学的LinearDB原型属于这方面的研究,详细参见711节.

6.2MapReduce性能优化研究

MapReduce的性能优化研究集中于对关系数据库的先进技术和特性的移植上.

Facebook和俄亥俄州立大学合作,将关系数据库的混合式存储模型应用于H adoop平台,提出了RCFile存储格式[25].与之不同,文献[26]将列存储技术引入H ado op平台.H adoop++[27]系统运用了传统数据库的索引技术,并通过分区数据并置(Co-Partition)的方式来提升性能.文献[28-29]基询执行过程中看到部分较早返回的结果.两者的不同之处在于前者仍基于sort-merge方式来实现流水线,只是将排序等操作推向了r educer,部分情况下仍会出现流水线停顿的情况;而后者利用hash方式来分布数据,能实现更好的并行流水线操作.文献[30]提出了MRShare架构,对批量查询进行转换,将可共享扫描、共享M ap输出结果等的一组任务合并为一个,以提升性能.新加坡国立大学对影响H ado op性能的因素做了深入分析[12],并提出了5项有效的优化技术,使得H adoop的性能提升了近3倍,逼近关系数据库的性能.

近年的研究热点是基于M apReduce的连接操作的性能优化.文献[31]对M apReduce平台的两表连接算法做了总结,提出了M ap端连接、Reduce端连接及广播式连接等算法.文献[32]对MapReduce 框架进行了扩展,在Reduce步骤后添加了一M er ge 步骤来完成连接操作,提出的M ap-Reduce-M er ge 框架可以同时处理两个异构数据源的数据.对于多表连接,当前主流的研究集中于仅通过一个任务来完成连接操作.文献[33-34]提出了一对多复制的方法,在M ap阶段结束后,为保证连接操作的局部性,元组会被复制到多个节点.但在节点数和数据量增大的情况下,会带来I/O量及网络传输量的巨大增长.Llam a[35]通过预排序和按连接属性划分数据的方式来降低星型连接的代价,但要付出可观的预处理代价和空间代价.不同于以上等值连接优化,文献[36]提出了针对任意连接条件的优化模型.以上连接方式都是先执行连接,然后在连接后的数据上执行聚集操作.而中国人民大学的Dumbo[37]系统却采用了另一种更适应于M apReduce平台的思路:先执行过滤聚集操作,再基于聚集的数据执行连接.详细参考712节.

6.3HadoopDB的改进

H ado opDB于2011年针对其架构提出了两种连接优化技术和两种聚集优化技术[38].

两种连接优化的核心思想都是尽可能地将数据的处理推入数据库层执行.第1种优化方式是根据表与表之间的连接关系,通过数据预分解,使参与连接的数据尽可能分布在同一数据库内(参照分解法),从而实现将连接操作下压进数据库内执行.该算法的缺点是应用场景有限,只适用于链式连接.第

1747

10期王珊等:架构大数据:挑战、现状与展望

2种连接方式是针对广播式连接而设计的.在执行连接前,先在数据库内为每张参与连接的维表建立一张临时表,使得连接操作尽可能在数据库内执行.该算法的缺点是较多的网络传输和磁盘I/O操作.

两种聚集优化技术分别是连接后聚集和连接前聚集.前者是执行完Reduce端连接后,直接对符合条件的记录执行聚集操作;后者是将所有数据先在数据库层执行聚集操作,然后基于聚集数据执行连接操作,并将不符合条件的聚集数据做减法操作.该方式适用的条件有限,主要用于参与连接和聚集的列的基数相乘后小于表记录数的情况.

总的来看,H ado opDB的优化技术大都局限性较强,对于复杂的连接操作(如环形连接等)仍不能下推至数据库层执行,并未从根本上解决其性能问题.

7MapReduce和关系数据库技术的融合

综上所述,当前研究大都集中于功能或特性的移植,即从一个平台学习新的技术,到另一平台重新实现和集成,未涉及执行核心,因此也没有从根本上解决大数据分析问题.鉴于此,中国人民大学高性能数据库实验室的研究小组采取了另一种思路:从数据的组织和查询的执行两个核心层次入手,融合关系数据库和MapReduce两种技术,设计高性能的可扩展的抽象数据仓库查询处理框架.该框架在支持高度可扩展的同时,又具有关系数据库的性能.我们团队尝试过两个研究方向:(1)借鉴MapReduce的思想,使OLAP查询的处理能像M apReduce一样高度可扩展(LinearDB原型);(2)利用关系数据库的技术,使MapReduce在处理OLAP查询时,逼近关系数据库的性能(Dumbo原型).

7.1LinearDB

LinearDB①[39]原型系统没有直接采用基于连接的星型模型(雪花模型),而是对其进行了改造,设计了扩展性更好的、基于扫描的无连接雪花模型JFSS (Jo in-Free Snow flake Schema).该模型的设计借鉴了泛关系模型的思想,采用层次编码技术[40]将维表层次信息压缩进事实表,使得事实表可以独立执行维表上的谓词判断、聚集等操作,从而使连接的数据在大规模机群上实现局部性,消除了连接操作.图4为T ransfo rm、Reduce、M er ge3个操作(T RM执行模型):(1)T ransform.主节点对查询进行预处理,将查询中作用于维表的操作(主要是谓词判断,

g roup-by聚集操作等)转换为事实表上的操作;

(2)Reduce.每个数据节点并行地扫描、聚集本地数据,然后将处理结果返回给主节点;(3)M erg e.主节点对各个数据节点返回的结果进行合并,并执行后续的过滤、排序等操作.基于TRM执行模型,查询可以划分为众多独立的子任务在大规模机群上并行执行.执行过程中,任何失败子任务都可以在其备份节点重新执行,从而获得较好的容错能力. LinearDB的执行代价主要取决于对事实表的Reduce(主要是扫描)操作,因此,LinearDB可以获得近乎线性的大规模可扩展能力.实验表明,其性能比H adoopDB至少高出一个数量级②.

LinearDB的扩展能力、容错能力和高性能在于其巧妙地结合了关系数据库技术(层次编码技术、泛关系模式)和M apReduce处理模式的设计思想,由此,可以看出,结合方式的不同可以导致系统能力的巨大差异.

712Dumbo

Dumbo[37]的核心思想是根据M apReduce的/过滤->聚集0的处理模式,对OLAP查询的处理进行改造,使其适应于M apReduce框架.

Dumbo采用了类似于LinearDB的数据组织模式)))利用层次编码技术将维表信息压缩进事实表,区别在于Dum bo采用了更加有效的编码方式,并针对H ado op分布式文件系统的特点对数据的存储进行了优化.

在执行层次上,Dumbo对M apReduce框架进行了扩展,设计了新的OLAP查询处理框架))) T MRP(T ransfo rm->M ap->Reduce->Postpro-cess)处理框架(如图5所示).在该框架中,主节点首先对查询进行转换,生成一个M apReduce任务来执行查询.该任务在M ap阶段以流水线方式扫描、聚集本地数据,并只将本地的聚集数据传至Re-duce阶段,来进行数据的合并及聚集、排序等操作.在Postpro cess阶段,主节点在数据节点上传的聚集数据之上执行连接操作.实验表明,Dumbo性能远超H adoop和H ado opDB.

由此我们可以看出,复杂的OLA P查询在

1748计算机学报2011年

图4对比:一个典型星型模型与其对应的无连接雪花模型MapReduce框架下也可以获得接近甚至超越关系

数据库的性能,其关键在于如何有效地结合关系数据库和MapReduce两种技术.仅仅停留于表层的移植和集成是难以从根本上解决大数据分析问题的.我们在文献[41]的研究中也展示了如何基于这种新的数据组织方式来实现复杂分析操作)))百分位数的高效计算问题.

LinearDB和Dum bo虽然基本可以达到预期的设计目标,但两者都需要对数据进行预处理,其8研究展望

当前3个方向的研究都不能完美地解决大数据分析问题,也就意味着每个方向都有极具挑战性的工作等待着我们.

对并行数据库来说,其扩展性近年虽有较大改善(如Greenplum和Aster Data都是面向PB级数据规模设计开发的),但距离大数据的分析需求仍

1749

10期王珊等:架构大数据:挑战、现状与展望

图5D umbo架构(深灰色部分是新增模块,

剩余部分是Hadoo p自带模块)

诸多方面.

混合式架构方案可以复用已有成果,开发量较小.但只是简单的功能集成似乎并不能有效解决大数据的分析问题,因此该方向还需要更加深入的研究工作,比如从数据模型及查询处理模式上进行研究,使两者能较自然地结合起来,这将是一项非常有意义的工作.中国人民大学的Dumbo[37]系统即是在深层结合方向上努力的一个例子.

相比于前两者,M apReduce的性能优化进展迅速,其性能正逐步逼近关系数据库.该方向的研究又分为两个方向:理论界侧重于利用关系数据库技术及理论改善MapReduce的性能;工业界侧重于基于MapReduce平台开发高效的应用软件.针对数据仓库领域,我们认为如下几个研究方向比较重要,且目前研究还较少涉及:

(1)多维数据的预计算.M apReduce更多针对的是一次性分析操作.大数据上的分析操作虽然难以预测,但传统的分析,如基于报表和多维数据的分析仍占多数.因此,M apReduce平台也可以利用预的,混合式OLAP(H OLAP)应该是M apReduce平台的优选OLAP实现方案.具体研究如:①基于M apReduce框架的高效Cube计算算法;②物化视图的选择问题,即物化哪些数据;③不同分析操作的物化手段(比如预测分析操作的物化)及如何基于物化的数据进行复杂分析操作(如数据访问路径的选择问题).

(2)各种分析操作的并行化实现.大数据分析需要高效的复杂统计分析功能的支持.IBM将开源统计分析软件R集成进H ado op平台[42],增强了H ado op的统计分析功能.但更具挑战性的问题是,如何基于MapReduce框架设计可并行化的、高效的分析算法.尤其需要强调的是,鉴于移动数据的巨大代价,这些算法应基于移动计算的方式来实现.

(3)查询共享.M apReduce采用步步物化的处理方式,导致其I/O代价及网络传输代价较高.一种有效的降低该代价的方式是在多个查询间共享物化的中间结果,甚至原始数据,以分摊代价并避免重复计算.因此如何在多查询间共享中间结果将是一项非常有实际应用价值的研究.

(4)用户接口.如何较好地实现数据分析的展示和操作,尤其是复杂分析操作的直观展示.

(5)H ado op可靠性研究.当前H adoo p采用主从结构,由此决定了主节点一旦失效,将会出现整个系统失效的局面.因此,如何在不影响H adoop现有实现的前提下,提高主节点的可靠性,将是一项切实的研究.

(6)数据压缩.M apReduce的执行模型决定了其性能取决于I/O和网络传输代价.文献[11]在比较并行数据库和M apReduce基于压缩数据的性能时,发现压缩技术并没有改善H ado op的性能①.但实际情况是,压缩不仅可以节省空间,节省I/O及网络带宽,还可以利用当前CPU的多核并行计算能力,平衡I/O和CPU的处理能力,从而提高性能.比如并行数据库利用数据压缩后,性能往往可以大幅提升.此后,文献[25-26]的研究成功地利用压缩技术提升了H adoop的性能.但这些研究都基于各自的存储模型,而非H adoop的默认存储模式(行存模型).因此,M apReduce上的压缩是一个尚待研究的重要问题.

(7)多维索引研究.如何基于MapReduce框架

1750计算机学报2011年

当然,仍有许多其它研究工作,比如基于H adoop的实时数据分析、弹性研究、数据一致性研究等,都是非常有挑战和意义的研究,限于篇幅我们不再赘述.

9总结

本文对大数据分析的主流实现平台(并行数据库、M apReduce及两者的混合架构)进行了评价、归纳与对比分析,介绍了中国人民大学在大数据分析方面的研究,并对当前的研究进行了归纳.从文中可以看出,每种分析平台都不是完美的,在大数据面前,都有很长的路要走.大数据分析迫使我们反思传统的数据仓库架构,虚心地研究MapReduce等新生平台,以站在更高的层次来思考问题,从而找到适应时代需求的数据仓库架构.

参考文献

[1]WinterCorp:2005T opT en Program Summ ary.h ttp://

ww w.w inter https://www.wendangku.net/doc/6710222211.html,/W hitePapers/WC_T opTenWP.pdf [2]TDWI Checklist Report:Big Data Analytics.http://tdw i.

org/research/2010/08/Big-Data-Analytics.aspx

[3]Chau dhuri S,Dayal U.An over view of data warehousing and

OLAP tech nology.S IGM OD Rec,1997,26(1):65-74 [4]M adden S,DeWitt D J,Stonebraker M.Database parallel-

ism choices greatly impact scalability.DatabaseC olumn Blog.

http://w w https://www.wendangku.net/doc/6710222211.html,/2007/10/database-paral-

lelis m-choices.html

[5]Dean J,Ghem aw at S.M apRedu ce:Simplified data process-

in g on large clusters//Proceedings of the6th Sym pos ium on

Operatin g System Design an d Im plem entation(OSDI.04).

San Francis co,California,U SA,2004:137-150

[6]DeW itt D J,Gerb er R H,Graefe G,H eytens M L,Kum ar

K B,M uralikris hna M.GAM M A)A high performance dat-

aflow database machin e//Proceedings of the12th Intern a-

tional C on feren ce on Ver y Large Data Bases(VLDB.86).

Ky oto,Japan,1986:228-237

[7]Fu shimi S,Kitsuregaw a M,T anak a H.An overview of the

system s oftw ar e of a parallel relational database machin e//

Pr oceedings of th e12th International Confer ence on Very

Large Data Bas es(VLDB.86).Kyoto,Japan,1986:209-219 [8]Brew er E A.Tow ard s robust distribu ted systems//Proceed-

in gs of the19th Annual ACM Sympos ium on Prin ciples of

Distribu ted Computing(PODC.00).Portlan d,Oregon,

USA,2000:7

[9]http://w w w.dbm https://www.wendangku.net/doc/6710222211.html,/2008/08/26/know n-applications-

of-mapreduce/

scale data analysis//Proceedings of the ACM SIGM OD Inter-

nation al Conference on M anagement of Data(SIGM OD.09).

Providence,Rh od e Is lan d,U SA,2009:165-178

[12]Jiang D,Ooi B C,S hi L,W u S.The performance of M apRe-

duce:An in-depth s tu dy.PVLDB,2010,3(1):472-483 [13]Stonebraker M,Abadi D J,DeWitt D J,M adden S,Paulson

E,Pavlo A,Ras in A.M apReduce and parallel DBM S s:

Friends or foes?Comm unications of the ACM,2010,53(1):

64-71

[14]Dean J,Ghemaw at S.M apReduce:A flexib le data pr ocess-

ing https://www.wendangku.net/doc/6710222211.html,mu nication s of the ACM,2010,53(1):72-77

[15]http://ww https://www.wendangku.net/doc/6710222211.html,/product/mapredu ce.p hp

[16]http://ww https://www.wendangku.net/doc/6710222211.html,/technology/m apreduce/

[17]https://www.wendangku.net/doc/6710222211.html,/

[18]Olston C,Reed B,S rivastava U,Kum ar R,Tomk ins An-

drew.Pig latin:A not-s o-foreign langu age for data pr ocess-

ing//Proceedings of th e ACM SIGM OD International C onfer-

en ce on M anagement of Data(S IGM OD.08).Vancouver,

BC,Canada,2008:1099-1110

[19]Azza Abouzeid,Kamil Bajda-Paw likow ski,Daniel J Abadi,

Alexander Rasin,Avi Silb erschatz.HadoopDB:An ar chitec-

tural hybrid of M apRedu ce and DBM S techn ologies for ana-

lytical w orkloads//Proceedin gs of the35th In ternation al Con-

ference on Very Large Data Bas es(VLDB.09).Lyon,

France,2009:733-743

[20]H adapt In c.h ttp://w ww.h https://www.wendangku.net/doc/6710222211.html,

[21]http://ww https://www.wendangku.net/doc/6710222211.html,/the-analytics-platform/native-

b-i et-l and-hadoop-mapreduce-integration/

[22]Xu Y,Kos tamaa P.Integrating hadoop and parallel DBM s//

Proceedings of the ACM SIGM OD In ternational Conference

on M anagement of Data(S IGM OD.10).In dianapolis,In d-i

an a,US A,2010:969-974

[23]Upadhyaya P,Kw on Y C,Balazinsk a M.A laten cy and

fault-toleran ce optimizer for online parallel query plans//Pro-

ceedings of th e ACM S IGM OD International C onference on

M anagement of Data(SIGM OD.11).Athens,Greece,2011:

241-252

[24]Yan g C,Yen C,Tan C,M adden S.Os prey:Implementing

M apReduce-style fault tolerance in a s har ed-noth ing distrib u-

ted datab as e//Proceedings of the24th International C onfer-

en ce on Data Engineering(ICDE.10).Long Beach,California,

US A,2010:657-668

[25]H e Yongqian g,Lee Ru bao,H uai Yin,Sh ao Zheng,Jain Na-

mit,Zhang Xiaodong,Xu Zhiw ei.RC File:A fast and space-

efficient data placem ent structure in M apReduce-based ware-

hous e system s//Proceedings of the24th Intern ational Confer-

ence on Data Engi n eering(ICDE.11).Hannover,Germany,

2011:1199-1208

[26]Floratou A,Patel J M,Sh ekita E J,T ata Sandeep.C olumn-

oriented storage techn iqu es for M apReduce.PVLDB,2011,

4(7):419-429

[27]Jens Dittrich,Jorge-Arn ulfo Qu ianü-Ruiz,Alek h Jindal,

Yagiz Kargin,Vinay Setty,J rg S chad.H adoop++:M ak-

1751

10期王珊等:架构大数据:挑战、现状与展望

K,Sears R.M apReduce online//Pr oceedings of the7th

USENIX S ymposium on Netw orked Sy stems Des ign and Im-

plementation(NS DI.10).San J ose,California,2010:313-

328

[29]Li Boduo,M az ur E dward,Diao Yanlei,M cGr egor Andrew,

Shenoy Prashant J.A platform for scalable one-pass analytics

using M apReduce//Proceedings of the ACM SIGM OD Inter-

n ational C on feren ce on M anagement of Data(SIGM OD.11).

Ath ens,Greece,2011:985-996

[30]Nykiel T,Potamias M,M ishra C,Kollios G,Koudas N.

M RS har e:Sharing across multiple queries in M apRedu ce.

PVLDB,2010,3(1):494-505

[31]Blanas S,Patel Jignesh,Ercegovac V,Rao J,Sh ekita E J,

Tian Y.A com paris on of join algorithms for log pr oces sing in

M aPreduce//Proceedings of th e ACM SIGM OD International

Con feren ce on M anagement of Data(SIGM OD.10).Indian-

apolis,Indiana,US A,2010:975-986

[32]Yang H-C,Dasdan A,H siao R-L,Parker D S.M ap-reduce-

merge:Simplified relation al data processing on large clus-

ters//Proceedings of the ACM SIGM OD International Con-

ference on M anagement of Data(SIGM OD.07).Beijing,

China,2007:1029-1040

[33]Afrati F N,Ullman J D.Optim izing join s in a map-redu ce

environm ent//Proceedings of the13th In ternation al Confer-

ence on Extendin g Database T ech https://www.wendangku.net/doc/6710222211.html,u san ne,S w itz er-

land,2010:99-110

[34]Jian g D,T ung A K H,Chen G.M ap-join-reduce:T ow ards

scalable and efficient data analysis on large clu sters.T KDE,

2010,23(9):1299-1311

[35]Lin Y,Agraw al D,C hen C,Ooi B C,Wu S.Llama:Lever-

aging columnar s torage for scalable join pr oces sing in the

MapReduce framew ork//Proceedings of th e ACM SIGM OD In-

ternational Conference on M anagement of Data(SIGM OD.11).

Ath ens,Greece,2011:961-972

[36]Okcan A,Ri edew ald M.Processing th eta-joins using M apReduce

//Proceedings of th e ACM SIGM OD International C onfer-

en ce on M anagement of Data(SIGM OD.11).Athen s,

Greece,2011:949-960

[37]W ang H uiju,W an g Shan,Qin Xiongpai,Li Fur on g,Zhou

Xuan,Qin Zuoyan,Zh u Qing.Efficient star query pr ocess-

ing on Hadoop)A hierar chy encoding based approach(T ech-

nical report)

[38]Bajda-Paw lik ow s ki Kamil,Abadi Dan iel J,Silbers chatzAvi,

Pau lson Erik.Efficien t processing of data w arehou sing que-

ries in a split execu tion environment//Proceedings of the

ACM SIGM OD Internation al Conferen ce on M anagem ent of

Data(SIGM OD.11).Athens,Greece,2011:985-996.

2011:1165-1176

[39]W ang H uijui,Qin Xion gpai,Zhang Yans on g,Wang Shan,

W ang Zhanw ei.L inearDB:A relation al approach to make

data w arehouse s cale like M apReduce//Proceedings of the

Databas e Sys tems for Advan ced Ap plication s-16th In terna-

tional Con feren ce(DAS FAA.11).H ong Kong,China,

2011:306-320

[40]Karayannidis N,Ts ois A,Sellis T K,Pieringer R,M ark l

V,Ramsak F,Fenk R,Elh ardt K,Bayer R.Process ing star

queries on hierarchically-clustered fact tab les//Pr oceedings of

the28th Intern ational Con feren ce on Very Larg e Data Bases

(VLDB.02).H on g Kong,China,2002:730-741

[41]Qin Xiong pai,Wang H uiju,Du Xiaoyong,W an g Shan.Par-

allel aggregation queries over star schem a:A hierarchical en co-

ding s cheme and efficient percentile com puting as a case//

Proceedings of th e9th IEEE In tern ational Symposium on Par-

allel and Distributed Processing w i th Applications(ISPA.11).

Busan,Korea,2011:329-334

[42]Das S,Sismanis Y,Beyer K S,Gemulla R,H aas P J,

M cPh ers on J.Ricardo:Integrating R and Hadoop//Proceed-

ings of the ACM SIGM OD International Conference on

M anagement of Data(SIGM OD.10).Athens,Greece,In d-i

an apolis,Indiana,U SA,2010:987-

998

WANG Shan,bor n in1944,pro-

fesso r,Ph.D.super viso r.H er r esear ch

inter ests include hig h perfo rmance dat a-

base,data war eho use and know ledg e en-

gineer ing.

WA NG Hu-i Ju,bo rn in1979,Ph.D.candidat e.H is re-

sea rch inter ests include data w arehouse,para llel database,

hig h per formance database.

QIN X iong-Pai,bor n in1973,Ph.D.,lectur er.H is re-

sea rch inter est s include query optimization,main-memo ry

database,par allel database.

ZHOU X uan,bo rn in1979,Ph.D.,asso ciate pr ofesso r.

H is cur rent research interests include IR,and hig h perfo rm-

ance databases.

Background

We have studied larg e scale data w arehouse sy st em since

2006,and fo cused on scalable main-memo ry O LA P system,

scalable st ar quer ies pro cessing fo r SN par allel dat abase and

Hadoo p platfor m,etc.U nt il no w,w e have develo ped fiv e

pr oto types)))ScaM M D B,ScaM M DB II,M OSSDB,L in-

China(/H GJ0P rojects,G rant No12010ZX01042-001-002),

the N atio nal N atur al Science Foundation of China(G rant

No161070054,61170013),the Fundamenta l Research Funds

for the Centra l U niv ersit ies(the Research F unds of Renmin

U niversity o f China,Gr ant No110XN I018),and the Gr adu-1752计算机学报2011年

大数据的应用现状与展望

自然辩证法小论文大数据的应用现状与展望指导老师：张立组长、主讲：刘开耀21428164 PPT制作：刘玉婷21428171 论文撰写：雷颖颖陈瞳资料收集：毕晨光黄一锋邵炳姜灵轩董丽华周晴黄河羚婕JX14014 2015/4/18

大数据的应用现状与展望摘要：大数据具有规模大、种类多、生成速度快、价值巨大但密度低的特点。大数据应用就是利用数据分析的方法，从大数据中挖掘有效信息，为用户提供辅助决策，实现大数据价值的过程。本文主要介绍了大数据的分析方法、分析模式以及常用的分析工具，将大数据应用归纳为6个关键领域：结构化数据分析、文本分析、Web分析、多媒体分析、社交网络分析和移动分析，并列举了若干大数据的典型应用。最后从基础理论、关键技术、应用实践以及数据安全等4个方面总结了大数据的研究现状，并对大数据应用未来的研究进行展望。关键词：大数据数据分析数据存储4V 在过去的20年中，各个领域都出现了大规模的数据增长，包括医疗保健和科学传感器用户生成数据、互联网和金融公司、供应链系统等。国际数据公司IDC报告[1]称，2011年全球被创建和复制的数据总量为1.8ZB（1ZB≈1021ZB），在短短5年间增长了近9倍，而且预计这一数字将每两年至少翻一番。大数据这一术语正是产生在全球数据爆炸增长的背景下用来形容庞大的数据集合。与传统的数据集合相比，大数据通常包含大量的非结构化数据，且大数据需要更多的实时分析。此外，大数据还为挖掘隐藏的价值带来了新的机遇，同时给我们带来了新的挑战，即如何有效地组织管理这些数据。 1 大数据的定义目前，虽然大数据的重要性得到了大家的一致认同，但是关于大数据的定义却众说纷纭。大数据是一个抽象的概念，除去数据量庞大，大数据还有一些其他的特征，这些特征决定了大数据与“海量数据”和“非常大的数据”这些概念之间的不同。一般意义上，大数据是指无法在有限时间内用传统IT技术和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合。科技企业、研究学者、数据分析师和技术顾问们，由于各自的关注点不同，对于大数据有着不同的定义。通过以下定义，或许可以帮助我们更好地理解大数据在社会、经济和技术等方而的深刻内涵。 2010年Apache Hadoop组织将大数据定义为，“普通的计算机软件无法在可接受的时间范围内捕捉、管理、处理的规模庞大的数据集”。在此定义的基础上，2011年5月，全球著名咨询机构麦肯锡公司发布了名为“大数据：下一个创新、竞争和生产力的前沿”的报

大数据带来的给予和挑战

大数据带来的机遇和挑战互联网高端技术的创新与发展，给人类社会带来了巨大变化。今后20年全球将步入大数据新时代。高端互联网将再铸新世界。我们正处在一个数据爆发增长的时代。移动互联网、移动终端和数据感应器的出现，使数据以超出人们想象的速度在快速增长。据国际数据资讯公司（GlobalPulse）估测，数据数量一直在快速增加，每年增长50%，这个速度不仅是指数据流的增长，而且还包括全新的数据种类的增多。据统计，全球企业2010年在硬盘上存储了超过7EB的新数据，消费者在PC和笔记本电脑等设备上存储了超过6EB新数据，而1EB数据就相当于美国国会图书馆中存储数据的4000多倍。目前数据容量增长的速度，已经大大超过了硬件技术的发展速度，并正在引发数据存储和处理的危机。有研究统计，从人类文明开始到2003年，人类共创造了5TB（兆亿字节）的信息，而现在，这样的数据量却仅需两天就被创造出来，且速度仍在加快。数据显示，2011年全球创建和复制的数据总量，就达到了1.8ZB(1ZB等于10的21次方比特)，相当于全球每人产生300GB以上的数据。目前这个数字仍在快速增长，预计2020年，全球产生的数据量更将超过80ZB。由此可见，我们的确已经迈入了大数据时代。 2012年3月，美国奥巴马政府发起了《大数据研究和发展倡议》，将大数据定义为“未来的新石油”，称将斥资2亿美元用于大数据研究，以应对大数据革命正在带来的大机遇。据美国咨询机构Gartner预测，从现在起到2015年，大数据将会在世界范围内创造440万个工作岗位。 “大数据”，这一新兴概念，正在被赋予极其丰富的内涵，并被寄予特别巨大的希望……大数据时代,我们该如何寻找对策,迎接挑战? 一、“大数据资源”成为重要战略资源互联网时代,“资源”的含义正在发生极大的变化,它已不再仅仅只是指煤、石油、矿产等一些看得见、摸得着的实体，“大数据”，也正在演变成不可或缺的战略资源。互联网、物联网每天都在产生大量的数据，这些庞大的数据资源，为人们依据数据了解世界、了解市场、了解人们的生活提供了可能。大数据已经被视为一种资产、一种财富、一种可以被衡量和计算的价值。得大数据者得天下，是一些推崇大数据时代的变革者所坚信不疑的判断。

《“互联网+”与大数据时代的机遇与挑战》在线考试

《“互联网+”与大数据时代的机遇与挑战》在线考试时间限制:90分钟离考试结束还剩 1小时 29分 11秒 (到时间后将自动交卷) 一、单项选择题(共20小题，每小题2分) 1.1969年，美国国防部高级研究计划署建成世界上第一个实际运营的封包交换网络（），标志计算机网络的产生。 A. 阿帕网 B. 万维网 C. NSFNET D. Internet 2.截止2013年底，我国互联网的普及率达到（） A. 23% B. 32% C. 39% D. 47% 3.本讲提到，“工业 4.0”是指利用物联信息系统，将生产中的供应、制造、销售信息（），最后达到快速、有效、 A. 立体化 B. 数据化 C. 表面化 D. 方便化 4.（）是一种新兴的大众创新创业模式，其中有一个非常火的名词叫做“创客”。 A. 众筹 B. 众创

C. 众包 D. 众集 5.下列不属于本文提到的大数据新概念陷阱的是（）。 A. 大数据会带来许多似是而非的“规律” B. 信息的增长赶不上噪声的增长 C. 数据越多可能思维越片面 D. 大数据发展不需要考虑经济性 6.根据本讲，信息化最主要的特征是（） A. 融合 B. 包容 C. 安全 D. 转型 7.国家发改委专门设定“大数据提升政府治理能力研究”重大课题的年份是（）。 A.2012 B.2013 C.2014 D.2015 8.根据本讲，国家战略传播是以（）作为主要内容的。 A. 正能量 B. 道义感召力 C. 价值观和意识形态 D. 国家的核心利益

9.要从制度上破解新技术、新业态的障碍，其中一个原则是要构建激励约束的机制，保证（）。 A. 信息动力 B. 物质动力 C. 技术动力 D. 原创动力 10.本讲认为，信息技术经过几十年的扩散储备后，21世纪的前（）年可能是信息技术提高生产率的黄金时期。 A.10 B.20 C.30 D.35 12.（）的社会联系和组织具有非自主性。 A. 信息时代 B. 机器及以前时代 C. 工业时代 D. 农业时代 13.分布式能源是上世纪（）年代从热电联产开始的。 A.60 B.70 C.80 D.90 14.新技术、新业态是经济结构优化、转型升级的（）。 A. 基础

大数据技术的挑战和启示分析

大数据技术的挑战和启示目前，大数据技术的运用仍存在一些困难与挑战，体现在大数据挖掘的四个环节中。首先在数据收集方面。要对来自网络包括物联网和机构信息系统的数据附上时空标志，去伪存真，尽可能收集异源甚至是异构的数据，必要时还可与历史数据对照，多角度验证数据的全面性和可信性。其次是数据存储。要达到低成本、低能耗、高可靠性目标，通常要用到冗余配置、分布化和云计算技术，在存储时要按照一定规则对数据进行分类，通过过滤和去重，减少存储量，同时加入便于日后检索的标签。第三是数据处理。有些行业的数据涉及上百个参数，其复杂性不仅体现在数据样本本身，更体现在多源异构、多实体和多空间之间的交互动态性，难以用传统的方法描述与度量，处理的复杂度很大，需要将高维图像等多媒体数据降维后度量与处理，利用上下文关联进行语义分析，从大量动态而且可能是模棱两可的数据中综合信息，并导出可理解的内容。第四是结果的可视化呈现，使结果更直观以便于洞察。目前，尽管计算机智能化有了很大进步，但还只能针对小规模、有结构或类结构的数据进行分析，谈不上深层次的数据挖掘，现有的数据挖掘算法在不同行业中难以通用。大数据技术的运用前景是十分光明的。当前，我国正处在全面建成小康社会征程中，工业化、信息化、城镇化、农业现代化任务很重，建设下一代信息基础设施，发展现代信息技术产业体系，健全信息安全保障体系，推进信息网络技术广泛运用，是实现四化同步发展的保证。大数据分析对我们深刻领会世情和国情，把握规律，实现科学发展，做出科学决策具有重要意义，我们必须重新认识数据的重要价值。为了开发大数据这一金矿，我们要做的工作还很多。首先，大数据分析需要有大数据的技术与产品支持。发达国家一些信息技术（IT）企业已提前发力，通过加大开发力度和兼并等多种手段，努力向成为大数据解决方案提供商转型。国外一些企业打出免费承接大数据分析的招牌，既是为了练兵，也是为了获取情报。过分依赖国外的大数据分析技术与平台，难以回避信息泄密风险。有些日常生活信息看似无关紧要，其实从中也可摸到国家经济和社会脉搏。因此，我们需要有自主可控的大数据技术与产品。美国政府2012年3月发布《大数据研究与发展倡议》，这是继1993年宣布“信息高速公路”之后又一重大科技部署，联邦政府和一些部委已安排资金用于大数据开发。我们与发达国家有不少差距，更需要国家政策支持。中国人口居世界首位，将会成为产生数据量最多的国家，但我们对数据保存不够重视，对存储数据的利用率也不高。此外，我国一些部门和机构拥有大量数据却不愿与其他部门共享，导致信息不完整或重复投资。政府应通过体制机制改革打破数据割据与封锁，应注重公开信息，应重视数据挖掘。美国联邦政府建立统一数据开放门户网站，为社会提供信息服务并鼓励挖掘与利用。例如，提供各地天气与航班延误的关系，推动航空公司提升正点率。

大数据的应用及带给企业的挑战

大数据的应用及带给企业的挑战随着信息技术特别是信息通讯技术的发展，互联网、社交网络、物联网、移动互联网、云计算等相继进入人们的日常工作和生活中，全球数据信息量呈指数式爆炸增长之势。根据国际数据公司IDC发布的研究报告，预计全球数据量大约每两年翻一番，到2020年全球将达到35ZB的数据信息量。随着前所未有巨量数据信息的聚集，“大数据”已得到广泛关注。本文将分企业数据、机器数据和社会化数据三类，针对企业数据处理面临的挑战、机器数据应用场景、社会化数据带来的变革展开讨论。 1、企业数据处理面临的挑战中国的企业已经认识到大数据蕴含着巨大的商业价值，但国内互联网巨头作为率先使用大数据技术的用户，仅仅是基于开源软件自主开发大数据应用，未形成企业级的个性化应用。 (1)非结构化和结构化数据的统一及整合随着互联网和通信技术的迅猛发展，企业中的数据类型早已不是单一的以文本为主的结构化数据，还充斥着广泛存在于社交网络、物联网、电子商务等之中的网络日志、音频、视频、图片、地理位置信息等多类型的数据。这些数据称为非结构化数据。据统计，企业中

85%的数据属于非结构化数据。但是企业现有的数据处理方法仅适用于结构化数据，无法将大量的非结构化数据与结构化数据进行统一、整合，就无法发掘数据中的价值。 (2)跨业务平台数据的关联当今企业环境中存在着：不同业务模块的数据分布在不同的系统平台，这些被割裂的数据在单一业务平台无法得到有效利用；不同业务模块的数据无法实现共享、关联；仅对关键业务的数据进行收集、整合和利用，非关键业务的数据被忽视等现状。企业中的数据由于业务模块的划分而被割裂开来．单一业务模块的数据价值远远小于所有业务模块数据关联起来进行分析运用，企业将如何实现跨业务平台数据的关联与整合将面临巨大的挑战。 (3)面向数据的实时分析随着经济的飞速发展，企业所面临的市场行情也在瞬息万变，企业曾经惯用的事后处理机制已经不能应对，企业需要实时洞察业务运营状态，以便迅速应对不断变化的市场形势。企业业务的运营状态将体现在海量数据的快速处理和有效进行实时分析的基础上。但随着大数据的爆炸式增长，与企业相关的数据可能在无限量的不断增长，这些不断变化的数据，需要企业进行全面、实时的分析。

大数据研究现状综述概要

大数据研究综述网络大数据是指“人、机、物”三元世界在网络空间(Cyberspace中交互、融合所产生并在互联网上可获得的大数据.网络大数据的规模和复杂度的增长超出了硬件能力增长的摩尔定律,给现有的IT架构以及机器处理和计算能力带来了极大挑战.同时,也为人们深度挖掘和充分利用网络大数据的大价值带来了巨大机遇.因此,迫切需要探讨大数据的科学问题,发现网络大数据的共性规律,研究网络大数据定性、定量分析的基础理论与基本方法. 文中分析了网络大数据的复杂性、不确定性和涌现性,总结了网络空间感知与数据表示、网络大数据存储与管理体系、网络大数据挖掘和社会计算以及网络数据平台系统与应用等方面的主要问题与研究现状,并对大数据科学、数据计算需要的新模式与新范式、新型的IT基础架构和数据的安全与隐私等方面的发展趋势进行了展望. 网络大数据的深挖掘、大规模利用是新兴产业界的立足点.即便针对大数据的研究目前还没有建立一套完整的理论体系,也缺少高效快速的处理、分析与挖掘的算法与范式,但大数据的应用前景毋庸置疑,因为大数据从根本上来说就是来源于应用的问题。网络大数据可为世界经济创造巨大价值,提高企业和公共部门的生产率和竞争力,并为消费者创造巨大的经济利益。大数据近期发展: 1.网络空间感知与数据表示 2.网络大数据存储与管理体系 3.网络数据挖掘 4.社会计算以及网络数据平台系统与应用以上四点见:网络大数据:现状与展望第3,4,5,6节作者:王元卓2013年

5.在大数据处理中,应用云计算技术,促进大数据处理系统的功能多样化。见: 讨论云计算技术下的大数据处理系统任量2014年

浅谈大数据发展现状及未来展望

浅谈大数据发展现状及未来展望中国特色社会主义进入新时代，实现中华民族伟大复兴的中国梦开启新征程。党中央决定实施国家大数据战略，吹响了加快发展数字经济、建设数字中国的号角。国家领导人在十九届中共中央政治局第二次集体学习时的重要讲话中指出：“大数据是信息化发展的新阶段”，并做出了“推动大数据技术产业创新发展、构建以数据为关键要素的数字经济、运用大数据提升国家治理现代化水平、运用大数据促进保障和改善民生、切实保障国家数据安全”的战略部署，为我国构筑大数据时代国家综合竞争新优势指明了方向！今天，我拟回顾大数据的发端、发展和现状，研判大数据的未来趋势，简述我国大数据发展的态势，并汇报我对信息化新阶段和数字经济的认识，以及对我国发展大数据的若干思考和建议。一、大数据的发端与发展从文明之初的“结绳记事”，到文字发明后的“文以载道”，再到近现代科学的“数据建模”，数据一直伴随着人类社会的发展变迁，承载了人类基于数据和信息认识世界的努力和取得的巨大进步。然而，直到以电子计算机为代表的现代信息技术出现后，为数据处理提供了自动的方法和手段，人类掌握数据、处理数据的能力才实现了质的跃升。信息技术及其在经济社会发展方方面面的应用（即信息化），推动数据（信息）成为继物质、能源之后的又一种重要战略资源。 “大数据”作为一种概念和思潮由计算领域发端，之后逐渐延伸到科学和商业领域。大多数学者认为，“大数据”这一概念最早公开出现于1998年，美国高性能计算公司SGI的首席科学家约翰·马西（John Mashey）在一个国际会议报告中指出：随着数据量的快速增长，必将出现数据难理解、难获取、难处理和难组织等四个难题，并用“Big Data（大数据）”来描述这一挑战，在计算领域引发思考。2007年，数据库领域的先驱人物吉姆·格

大数据时代信息安全面临的挑战与机遇

大数据时代信息安全面临的挑战与机遇 2013-7-11 10:17:00来源：中国科技网根据有关学者的研究，数据密集型科学将成为继实验科学、理论科学、计算机科学之后，人类科学研究的第四个范式。以大数据为代表的数据密集型科学将成为新一次技术变革的基石。随着数据的进一步集中和数据量的增大，对海量数据进行安全防护变得更加困难，数据的分布式处理也加大了数据泄露的风险，信息安全正成为制约大数据技术发展的瓶颈。大数据时代已经到来物联网、云计算、移动互联网等新技术的发展，使得手机、平板电脑、PC及遍布地球各个角落的传感器，成为数据来源和承载方式。据估计，互联网上的数据量每两年会翻一番，到2013年，互联网上的数据量将达到每年667EB（1EB=230GB）。这些数据绝大多数是“非结构化数据”，通常不能为传统的数据库所用，但这些庞大的数据“宝藏”将成为“未来的新石油”。 1.大数据具有四个典型特征大数据（Big Data）是指“无法用现有的软件工具提取、存储、搜索、共享、分析和处理的海量的、复杂的数据集合”。业界通常用四个V来概括大数据的特征。 ——数据体量巨大（Volume）。到目前为止，人类生产的所有印刷材料的数据量是200PB（1PB=210TB），而历史上

全人类说过的所有的话的数据量大约5EB（1EB=210PB）。当前，典型个人计算机硬盘的容量为TB量级，而一些大企业的数据量已经接近EB量级。 ——数据类型繁多（Variety)。这种类型的多样性也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以文本为主的结构化数据，非结构化数据越来越多，包括网络日志、音频、视频、图片、地理位置信息等，这些多类型的数据对数据的处理能力提出了更高要求。 ——价值密度低（Value）。价值密度的高低与数据总量的大小成反比。以视频为例，一部1小时的视频，在连续不间断的监控中，有用数据可能仅有一两秒。如何通过强大的机器算法更迅速地完成数据的价值“提纯”，成为目前大数据背景下亟待解决的难题。 ——处理速度快（Velocity）。这是大数据区分于传统数据挖掘的最显著特征。根据IDC的“数字宇宙”报告，预计到2020年，全球数据使用量将达到35.2ZB（1ZB=210EB）。在如此海量的数据面前，处理数据的效率就是企业的生命。 2.大数据成为国家和企业的核心资产 2012年瑞士达沃斯论坛上发布的《大数据大影响》报告称，数据已成为一种新的经济资产类别，就像货币或黄金一样。奥巴马政府已把“大数据”上升到国家战略层面，2012年3月，美国宣布投资2亿美元启动“大数据研究和发展计划”，借以增强收集

大数据时代的机遇与挑战论文3000字[精品文档]

大数据时代的机遇与挑战什么是大数据时代？ “大数据”在物理学、生物学、环境生态学等领域以及军事、金融、通讯等行业存在已有时日，却因为近年来互联网和信息行业的发展而引起人们关注。最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡，麦肯锡称：“数据，已经渗透到当今每一个行业和业务职能领域，成为重要的生产因素。人们对于海量数据的挖掘和运用，预示着新一波生产率增长和消费者盈余浪潮的到来。” 大数据时代是怎样产生的？物联网、云计算、社交网络、社会媒体以及信息获取技术的飞速发展，数据正以前所未有的速度迅速增长和积累，数据是人类社会最重要的财富大数据时代的到来大数据时代的特点? 1.数据量大（Volume）第一个特征是数据量大。大数据的起始计量单位至少是P（1000个T）、E（100万个T）或Z（10亿个T）。 2.类型繁多（Variety）第二个特征是数据类型繁多。包括网络日志、音频、视频、图片、地理位置信息等等，多类型的数据对数据的处理能力提出了更高的要求。 3.价值密度低（Value）第三个特征是数据价值密度相对较低。如随着物联网的广泛应用，信息感知无处不在，信息海量，但价值密度较低，如何通过强大的机器算法更迅速地完成数据的价值“提纯”，是大数据时代亟待解决的难题。 4.速度快、时效高（Velocity）第四个特征是处理速度快，时效性要求高。这是大数据区分于传统数据挖掘最显著的特征。既有的技术架构和路线，已经无法高效处理如此海量的数据，而对于相关组织来说，如果投入巨大采集的信息无法通过及时处理反馈有效信息，那将是得不偿失的。可以说，大数据时代对人类的数据驾驭能力提出了新的挑战，也为人们获得更为深刻、全面的洞察能力提供了前所未有的空间与潜力。大数据时代的机遇大数据技术通过对海量数据的快速收集与挖掘、及时研判与共享，成为支持社会治理科学决策和准确预判的有力手段，为社会转型期的社会治理创新带来了机遇。建立大数据中心，及时搜集、实时处理数据信息，为科学决策提供坚实基础。对社会大数据进行历时性和实时性分析，加强社会风险控制，提高政府预测预警能力和应急响应能力。

大数据的应用现状及展望

大数据的应用现状及展望摘要：互联网时代下，大数据为管理带来的新的发展方向，对人员改革、决策质量提升、服务效率改善等产生显著的影响。然而大数据在当前技术发展中存在诸多问题，因此笔者在明晰大数据技术现状基础上，结合问题对其展开分析，旨在有效提升大数据技术的应用水平。关键词：大数据；应用现状；展望 Status and Prospect of big data applications Shan Li-lin (Information Center of Fushun Financial Bureau , Fushun 113006,China) Abstract:In the Internet era, big data has become a new development direction brought by management, which has a significant impact on personnel reform, decision-making quality improvement and service efficiency improvement. However, there are many problems in the current technology development of big data. Therefore, based on the clarity of the current situation of big data technology, the author conducts an analysis of big data technology in combination with problems, aiming to effectively improve the application level of big data technology. Keywords: big data; application status; prospect 引言大数据战略已经成为当前我国的发展战略，对我国经济发展及科技进步将产生深远的影响。尤其是近些年来，随着信息化高速发展及社会转型的不断提升，大数据与企事业单位、政府行政机关的管理不断融合，将成为互联网时代下分析的核心支撑！ 1 大数据内涵大数据，又称为海量数据，是指在数据的数量体积达到一种特别庞大状态，此时，一般的数据管理工具难以在规定时间内对其提取有效信息、整合类似资料、分析类比问题并且把它转化成对企业有用的信息。这些难以在规定的有效时间内进行识别、保存和应用的大量数据的集合，需要一种全新的解决方法才可以将其转化为企业所需要的决策领导力、发现问题和提前预知问题的能力、具有更加清晰且有条理处理问题的能力。大数据分为三种类型，包括结构化数据、半结构化数据和非结构化数据，其中非结构化数据越来越成为大数据的主要组成部分。大数据需要特殊的技术，以有效地处理海量且结构复杂的数据。与之相关的核心技术主要包括数据挖掘、云计算平台、MPP数据库、分布式数据库、可扩展的存储系统、分布式文件系统等。对大数据进行分析往往需要大量的计算机所提供的计算能力，数量少则数十台，多则数千台。随着云时代的来临，将大数据与云计算相结合，利用云计算技术可以用低廉的成本获得强大的运算能力，使大数据分析的门槛降低。在大数据、云计算与数据挖掘等技术不断发展的背景下，很多过去无法收集或者收集后无法分析的数据被充分地利用起来，帮助各行各业进行改革与创新，为人类的进步与发展发挥着巨大的作用[1]。大数据是一种规模大到在获取、存储、管理、分析方面均远远超过了传统类型的数据库软件工具能力范围的数据集合，它具有海量的数据规模、快速的数据流转、多样的数据类型以及价值密度低四大特征，而且实时性强、数据所蕴藏的

网络大数据现状和展望

网络大数据:现状与展望 1引言 1.1研究与发展现状近年来，随着互联网、物联网、云计算、三网融合等IT与通信技术的迅猛发展，数据的快速增长成了许多行业共同而对的严峻挑战和宝贵机遇，因而信息社会己经进入了大数据(hig Data)时代.大数据的涌现不仅改变着人们的生活与工作方式、企业的运作模式，甚至还引起科学研究模式的根本性改变. 一般意义上，大数据是指无法在一定时间内用常规机器和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合川.网络大数据是指“人、机、物”三元世界在网络空间(Cyberspace)中彼此交互与融合所产生并在互联网上可获得的大数据，简称网络数据. 当前，网络大数据在规模与复杂度上的快速增长对现有IT架构的处理和计算能力提出了挑战.据著名咨询公司IDC发布的研究报告，2011年网络大数据总量为1. 8 ZB，预计到2020年，总量将达到3 5 ZB. IBM将大数据的特点总结为3个V，即大量化(Volume)、多样化(Variety)和快速化(Velocity).首先，网络空间中数据的体量不断扩大，数据集合的规模己经从UB}TB到了PB，而网络大数据甚至以EB 和ZB(10z1)等单位来计数.IDC的研究报告称，未来十年全球大数据

将增加50倍，管理数据仓库的服务器的数量将增加10倍以迎合50倍的大数据增长.其次，网络大数据类型繁多，包括结构化数据、半结构化数据和非结构化数据.在现代互联网应用中，呈现出非结构化数据大幅增长的特点，至2012年末非结构化数据占有比例达到互联网整个数据量的75%以上.这些非结构化数据的产生往往伴随着社交网络、移动计算和传感器等新技术的不断涌现和应用.再次，网络大数据往往呈现出突发涌现等非线}h}状态演变现象，因此难以对其变化进行有效评估和预测.另一方而，网络大数据常常以数据流的形式动态、快速地产生，具有很强的时效性，用户只有把握好对数据流的掌控才能充分利用这些数据. 近几年，网络大数据越来越显示出巨大的影响作用，正在改变着人们的工作与生活.2012年11月《时代》杂志撰文指出奥巴马总统连任成功背后的秘密，其中的关键是对过去两年来相关网络数据的搜集、分析和挖掘②.目前，eBay的分析平台每天处理的数据量高达100 PB，超过了纳斯达克交易所每天的数据处理量.为了准确分析用户的购物行为，eBay定义了超过500种类型的数据，对顾客的行为进行跟踪分析③. 2012年的双十一，中国互联网再次发生了最大规模的商业活动:淘宝系网站的销售总额达到191亿元人民币.淘宝之所以能应对如此巨大的交易量和超高并发性的分析需求，得益于其对往年的情况，特别是用户的消费习惯、搜索习惯以及浏览习惯等数据所进行的综合分析.

大数据发展现状与未来发展趋势研究

大数据发展现状与未来发展趋势研究朱孔村（江苏省科学技术情报研究所，江苏南京210042）【摘要】数据是信息化时代的“新石油”资源，如何利用好这种“新石油”资源需要大数据技术的支持。文章介绍了大数据技术及其发展历程，概括了当前国内外大数据的发展现状并展望了大数据技术和产业方面的未来发展趋势。【关键词】大数据；现状；趋势【中图分类号】TP391【文献标识码】A【文章编号】1008-1151(2019)01-0115-04 Research on the Current Situation and Future Development Trend of Big Data Abstract: Data is the “new petroleum” resource of the information age and how to make good use of this “new petroleum” resource needs the support of big data technology. This paper first introduces the big data technology and its development process and summarizes the current development of big data at home and abroad. Finally, the future development trend of big data technology and industry is prospected. Key words: big data; current situation; trend 1 大数据技术概述 1.1大数据技术随着物联网、云计算、移动互联网等技术的成熟，以及智能移动终端的普及，全社会的数据量呈指数型增长，全球已经进入以数据为核心的大数据时代。大数据并不是一个新的概念，信息技术发展的每一个阶段都会遇到数据处理的问题，人类需要不停的面对来自数据的挑战。为满足商业结构化数据存储的需求而产生了关系型数据库，为满足互联网时代非结构化数据存储需求而产生了NoSQL技术，而大数据技术的产生是为了解决大型数据集分析的问题。大数据技术目前还没有一个确切的定义，各行各业有着自己的见解，但总体而言，其关键在于从数量庞大、种类繁多的数据中提取出有用的信息。维基百科从数据处理的角度将大数据定义为一个超大的、难以用现有常规的数据库管理技术和工具处理的数据集。国际数据公司（IDC）给出的报告指出，大数据技术描述了一种新一代技术和构架，以很经济的方式、以高速的捕获、发现和分析技术，从各种超大规模的数据中提取价值[1]。少量的数据看似杂乱无章，但是当数据累积到一定程度时，就会呈现出一种规律和秩序。大数据的价值就在于数据分析，利用大数据分析技术，从海量数据中总结经验、发现规律、预测趋势，最终为辅助决策服务。《大数据时代》的作者克托·迈尔-舍恩伯格认为：“大数据开启了一次重大的时代转型”，他指出大数据将带来巨大的变革，改变人们的生活、工作和思维方式，改变人们的商业模式，影响人们的经济、政治、科技和社会等各个层面。 1.2大数据发展历程 1.2.1萌芽阶段 20世纪90年代，“大数据”这个术语开始出现。1998年SGI首席科学家John Masey在USENIX大会上提出大数据的概念，他当时发表了一篇名为Big Data and the Next Wave of Infrastress的论文，使用了大数据来描述数据爆炸的现象。但是那时的大数据只表示“大量的数据或数据集”这样的字面含义，还没有涵盖到相关的采集、存储、分析挖掘、应用等技术方法与特征内涵 1.2.2发展阶段从20世纪末到21世纪初期是大数据的发展期，在这一阶段中大数据逐渐为学术界的研究者所关注，相关的定义、内涵、特性也得到了进一步的丰富。2003至2006年，Google 发布的GFS、MapReduce和BigTable三篇论文对大数据的发展起到重要作用。2006至2009年，大数据技术形成并行运算与分布式系统。2009年，Jeff Dean在BigTable基础上开发了Spanner数据库。随着数据挖掘理论和数据库技术的逐步成熟，一批商业智能工具和知识管理技术如数据仓库、专家系统、知识管理系统等开始被应用。 1.2.3成熟阶段 2011年至今，是大数据发展的成熟阶段，越来越多的研究者对大数据的认识从技术概念丰富到了信息资产与思维变革等多个维度，一些国家、社会组织、企业开始将大数据上升为总第21卷233期大众科技Vol.21 No.1 2019年1月Popular Science & Technology January 2019 【收稿日期】2018-11-06 【作者简介】朱孔村（1985－），男，山东临沂人，江苏省科学技术情报研究所实习研究员，从事电子政务相关工作。 - 115 -

医疗大数据面临的挑战及思考

doi:10.3969/j.issn. 1672-5166.2013.04.03 医疗大数据面临的挑战及思考蔡佳慧①张涛①宗文红①△ 文章编号：1672-5166（2013)04-0292-04 中图分类号：R-37 文献标志码：A 摘要随着卫生信息化建设进程的不断加快，医疗数据的类型和规模正以前所未有的速度增长，医疗卫生领域已进入“大数据时代”。本文在对医疗大数据基本概念进行剖析的基础上，归纳总结医疗大数据时代所面临的新挑战，详细介绍闸北区为应对这些挑战在数据管理、整合、存储、利用等方面所实施的具体措施，并对下一步工作进行了有益的思考。关键词大数据卫生信息化数据处理 Challenges and Considerations of the Big Data of Medicine Cai Jiahui, Zhang Tao, Zong Wenhong Zhabei District Health Research and Information Center, Shanghai 200070, China Abstract With the rapid development of health information, the type and scale of medical and health data continue to expand at an unprecedented pace. Medical and health ? eld has entered a big-data era. On the basis of the analysis of the basic concepts of health data, this paper summarizes the new challenges faced in medical and health ? eld in the age of big data and introduces in details the implementation of speci? c measures of Zhabei District to meet these challenges in data management, integration, storage, utilization. The bene? cial thinking for the next step has also been put forward. Key words Big data, Health information, Data processing 1 引言当前我们正处于一个数据爆炸性增长的“大数据”时代。据IDC（ International Data Corporation ，国际数据公司）预测，中国的大数据市场在2012～2016年间将增长5倍，政府、银行、医疗卫生、电信等行业将在其中占据最多的份额。在医疗卫生领域，各种信息系统在医疗机构的广泛应用以及医疗设备和仪器的数字化，使医院数据库的信息容量不断膨胀，这些宝贵的医疗信息资源对于疾病的管理、控制和医疗研究都是非常有价值的。如何利用这些海量的信息资源更好地为医疗卫生行业的管理、诊疗、科研和教学服务，已经越来越为人们所关注。 ① 上海市闸北区卫生科技与信息中心，上海市，200070 作者简介：蔡佳慧（1986），女，学士学位；研究方向：卫生信息管理；E-mail：caijiahui86@https://www.wendangku.net/doc/6710222211.html, 通讯作者：宗文红（1968），女，硕士学位；副主任医师；研究方向：卫生信息管理；E-mail：zongwenhong2006@https://www.wendangku.net/doc/6710222211.html, △通讯作者 292

大数据时代的机遇和挑战

大数据时代的机遇和挑战【】First of all ，the paper makes a simple analysis of the concept and characteristics of large data. Secondly ，it explores the opportunities and challenges that big data brings to all aspects of economic life. Finally ，it explores how to deal with opportunities and challenges ，and improve the development environment of big data. improve the environment for the development of big data ，so as to make a certain contribution to the economic development in the era of big data. 【Keywords】big data age ；quantitative economics ；application 1引言 “大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力来适应海量、高增长率和多样化的信息资产。被称为“第三次浪潮的华彩乐章”。近几年来，大数据吸引了越来越多的关注，

人们随时都能感觉到生活在一个日益信息化的世界中。随着网络技术的发展，越来越多的人使用社交软件进行网上聊天，发布个人心情状态，对网络中的信息进行评论，这些都极大的丰富了我们的生活。同时，网上每天都会产生大量的数据，根据有关统计，每天网络中大约出现220 万TB 的新数据，而且这个速度还在不断增加伴随着大数据时代的到来，数据资源越来越庞大，数据处理速度越来越快，人们可以通过大数据技术实现各种构想。学者能够利用大数据这一有利条件进行更加科学且贴近现实的经济研究。银行能够通过大数据考查企业的诚信状况，并决定是否放贷。而计算机则可以在海量的数据中统计分析出人的行为、习惯等方式，从而更好地学习模拟人类智能。随着科学技术的不断发展，未来大数据会发挥出更加强大的作用，而如何应对大数据时代的机遇与挑战，有效利用大数据资源，是各行各业应关注的焦点。 2大数据时代的特点大数据又可以称之为巨量资料，它的概念比较抽象，其定义是依靠互联网技术下的主流软件对一些规模较大、较复杂的资料进行处理、分析、管理，从而形成对经济发展更加有用的信息。大数据的主要特点就是信息量大、多样化、高速等。大数据的形成需要特殊专业的技术，例如互联网、数据挖掘电子网或者大规模并行处理数据库等软件，通过有效的掌握丰富的数据资源，并对这些数据进行专业化的处理，从而在经济社会的发展中实现盈利，把对大数据的处理加工有效的转变为信息资

浅谈大数据时代的机遇与挑战

湖南农业大学课程论文学院：信息科学技术学院班级：计算机1班姓名：XXX 学号：2015XXXX 课程论文题目：浅谈大数据时代的机遇与挑战课程名称：评阅成绩：评阅意见：成绩评定教师签名：日期：年月日

课程论文题目 ——浅谈大数据时代的机遇与挑战学生：XXX (信息科学技术学院计算机1班) 摘要：随着时代的发展，大数据这个词慢慢进入了人们的视野的当中，而大数据也与我们的生活关联越来越紧密，对我们的影响也越来越大。怎么样才能把握住机遇，在大数据时代中脱颖而出，怎么样才能在大数据时代到来的挑战中稳步前行。关键词：大数据;机遇与挑战；大数据时代分析 Abstract:with the development of The Times, the word big data slo wly into the people's horizons, and big data is linked to our life more and more closely, to our influence is growing. How to seize the opportunity, in the era of big data, how can ability in the er a of big data move steadily in the coming challenges. Key Words: Big data; Opportunities and challenges; The era of big da ta analysis

一、绪论（一）什么是大数据？ “大数据”作为时下最火热的IT行业的词汇在互联网时代显得越来越重要。大数据究竟有多大？大数据能做些什么？在新互联网时代，这些词汇让我们应接不暇。大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。大数据还有四个特性分别是数据量大，种类多，速度快，价值大。大数据技术，是指从各种各样类型的数据中，快速获得有价值信息的能力。最早提出“大数据”时代到来的是全球知名咨询公司麦肯锡，麦肯锡称：“数据，已经渗透到当今每一个行业和业务职能领域，成为重要的生产因素。人们对于海量数据的挖掘和运用，预示着新一波生产率增长和消费者盈余浪潮的到来。”（二）大数据能做些什么？大数据的应用示例包括了大科学、传感设备网络、天文学、大气学、基因组学、生物学、大社会数据分析、互联网文件处理、制作互联网搜索引擎索引、通信记录明细、军事侦察、社交网络、通勤时间预测、医疗记录、照片图像和图像封存、大规模的电子商务等。仅仅十余年，现在越来越多的政府、企业等组织机构意识到数据正在成为组织最重要的资产，数据分析能力正在成为组织的核心竞争力。大数据不仅是一种海量的数据状态及其相应的数据处理技术，更是一种思维方式，一项重要的基础设施。这或是明天我们治理交通拥堵、雾霾天气、看病难、食品安全等“城市病”的利器，也会为政府打开了解社情民意的更大窗口。众所周知，大数据已经不简简单单是数据大的事实了，而最重要的现实是对大数据进行分析，只有通过分析才能获取很多智能的、深入的、有价值的信息。二、本论 (一)大数据的重要性 1.大数据的处理分析正成为新一代信息技术融合应用的结点有专家指出，大数据及其分析，会在未来10年改变几乎每一个行业的业务功能，从科学研究到保险，从银行业到互联网，各个不同的领域都在遭遇爆发式增长的数据量。在美国的17个行业中，已经有15个行业大公司拥有大量的数据，其平均拥有的数据量已经远远超过了美国国会图书馆所拥有的数据量。在医疗与健康行业，根据数据预测，如果具备相关的IT设施，数据投资和分析能力等条

网络大数据现状与展望

网络大数据:现状和展望 1引言 1.1研究和发展现状近年来，随着互联网、物联网、云计算、三网融合等IT和通信技术的迅猛发展，数据的快速增长成了许多行业共同而对的严峻挑战和宝贵机遇，因而信息社会己经进入了大数据(hig Data)时代.大数据的涌现不仅改变着人们的生活和工作方式、企业的运作模式，甚至还引起科学研究模式的根本性改变. 一般意义上，大数据是指无法在一定时间内用常规机器和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合川.网络大数据是指“人、机、物”三元世界在网络空间(Cyberspace)中彼此交互和融合所产生并在互联网上可获得的大数据，简称网络数据. 当前，网络大数据在规模和复杂度上的快速增长对现有IT架构的处理和计算能力提出了挑战.据著名咨询公司IDC发布的研究报告，2011年网络大数据总量为1. 8 ZB，预计到2020年，总量将达到3 5 ZB. IBM将大数据的特点总结为3个V，即大量化(Volume)、多样化(Variety)和快速化(Velocity).首先，网络空间中数据的体量不断扩大，数据集合的规模己经从UB}TB到了PB，而网络大数据甚至以EB和ZB(10z1)等单位来计数.IDC的研究报告称，未来十年全球大数据将增加50倍，管理数据仓库的服务器的数量将增加10倍以迎合50倍的

大数据增长.其次，网络大数据类型繁多，包括结构化数据、半结构化数据和非结构化数据.在现代互联网使用中，呈现出非结构化数据大幅增长的特点，至2012年末非结构化数据占有比例达到互联网整个数据量的75%以上.这些非结构化数据的产生往往伴随着社交网络、移动计算和传感器等新技术的不断涌现和使用.再次，网络大数据往往呈现出突发涌现等非线}h}状态演变现象，因此难以对其变化进行有效评估和预测.另一方而，网络大数据常常以数据流的形式动态、快速地产生，具有很强的时效性，用户只有把握好对数据流的掌控才能充分利用这些数据. 近几年，网络大数据越来越显示出巨大的影响作用，正在改变着人们的工作和生活.2012年11月《时代》杂志撰文指出奥巴马总统连任成功背后的秘密，其中的关键是对过去两年来相关网络数据的搜集、分析和挖掘②.目前，eBay的分析平台每天处理的数据量高达100 PB，超过了纳斯达克交易所每天的数据处理量.为了准确分析用户的购物行为，eBay定义了超过500种类型的数据，对顾客的行为进行跟踪分析③. 2012年的双十一，中国互联网再次发生了最大规模的商业活动:淘宝系网站的销售总额达到191亿元人民币.淘宝之所以能应对如此巨大的交易量和超高并发性的分析需求，得益于其对往年的情况，特别是用户的消费习惯、搜索习惯以及浏览习惯等数据所进行的综合分析. 网络大数据给学术界也同样带来了巨大的挑战和机遇.网络数据