文档库 最新最全的文档下载
当前位置:文档库 › 大数据计算生态

大数据计算生态

大数据计算生态
大数据计算生态

1引言

计算生态学(computational ecology)是一门跨学科的新兴领域,它是采用经验数据、数学模型(包括统计模型)和计算技术来定量描述和分析现代生态学问题的科学。它主要由数据处理、数学模型和可视化表达组成,在其研究中注重数字化的数据采集处理、数学建模和计算机技术的结合,是生态学、计算科学和计算机理论交叉与融合的产物。计算生态学除涉及生物学、生态学等生命科学的基本理论和研究方法外,还要借助于数学、计算机科学、信息学、环境科学、系统工程等领域的知识。

计算生态的产生来自于科学的发展和社会的需求一方面是受现代计算理论及计算技术的影响和带动。新型计算机建模和数学方法的发展.卫星遥感事业的发展,计算机处理海量数据能力的提高,快速通讯网络的发展,小型无线电传送器和传感器的发展及计算机软件的发展等为计算生态学的产生提供了机会并奠定了技术理论基础,另一方面是现代生态学发展的必举。要求现代生态环境的恶化,诸如全球气候变化、生物多样性的丧失、资源的枯蝎等,严重威胁人类的生存和发展,以及人们对局部、国家、全球生态环境的日益关注等给生态学提出了更高的要求;现代生态学问题时空跨度增大、复杂性增强,以往的物理实验已不能准确地描述和表达生态学规律,它要求更精确的推理分析、计算方法和形象化表达方式及较高的预测能力,因此生态学应不断完善自己的研究模式,制定合理的计算体系,以预防生态灾害,揭示生态规律,为人类社会的发展谋福利。

从生态学计算的产生和发展阶段来看,计算生态学的产生和出现是生态学计算领域的新阶段.在相当长时期、受对生态学认识程度和计算方法的限制,统计生态学在生态学研究中居于主导地位、统计生态学是数学、统计学与生态学相结合的一门交叉学科,主要应用统计学的知识解决生态学问题.随着研究的深人,数学生态学于20世纪20年代至40 年代成长起来?数学生态学通过模型以形象化的思维模式迅速成为生态学计算的另一个生长点?目前计算机技术及计算方法的发展进一步促进了生态学的发展,用数学方法和原理模拟出的生态学模型能在计算机上可视化地表达出来,可反演并预测生态学行为。因此计算生态学是生态学进人新的发展阶段的标志。

2大数据计算生态的简介

计算生态学的研究步骤是:生态学信息获取、生态学信息处理、生态学信息分析及分析结果显示。通过计算生态学研究体系的建立和完善,获取最佳生态信息数量、合理地提取生态信息的质量、科学有效地发挥生态信息的能量,在一定程度上势必加快生态学的研究进程,这也是计算生态学价值的体现。

计算生态学的研究步骤是依据数字化技术、模型化技术、可视化技术和智能化技术的顺序展开的,其中数字化是基础,模型化是方法,智能化是核心,可视化贯穿计算生态学的整个研究过程。

信息数字化技术主要是把各种形式的信息(如文字、数值、图形、图像、声音等)输入计

算机系统并转换成二进制数字编码,实现编辑、合成、储存、信息的提取和加工及处理、并进行信息传输。采用数字化技术真正实现了图形、图像和声音等多媒体的运算,是计算技术更新和发展的里程碑。在生态学中采用数字化技术后、可以对图像、声音和视频进行处理、极大地丰富了生态学信息采集量和处理速度,同时,数字化的生态学信息具有较强的数据支持能力,计算精度和稳定性也大幅提高。目前,随着世界各国合作开展的数字地球计划的实施,生态信息的数字化将有利于统一数据标准、提高数据共享能力,并成为可视化和智能化研究的基础。

生态学模型是计算生态学的主要研究内容,包括诸如种群生态学模型、空间分布格局模型、统计生态学模型、非线性生态学模型等。计算生态学的数学模型应由简单的数学描述和数学方程上升到分析、预报、决策和控制水平,随机模型和智能化模型将成为今后研究的主要对象,如应用随机的连续时间马尔可夫模型研究生态系统状态转移,采用人工神经网络模型研究生态学分类和特征识别及鉴定,这些方法提高了生态学模型的适应性和灵活性。生态学模型应定位于随机、非线性、智能化方向,并注重利用多媒体数据构建模型,用来监控、模拟和仿真复杂的生态系统的行为与功能。

可视化技术是指在人脑中形成对某物(某人)的图像,是一个心智处理过程,促进对事物的观察力及建立概念模型等。科学计算可视化与常规研究的主要区别在于它是基于计算机开发的工具、技术和系统,作为计算机应用学科的一个重要分支,科学计算可视化采用形象、直观的图形、图像来表达大量抽象的计算数据所蕴涵的内容,使人们能够直接地分析和判断计算结果,以及模拟和仿真计算过程。生态学模型的可视化提高了生态学计算的可操作性和实用性,便于生态学涵义的理解与揭示。

智能化是一种模拟人脑思维方式的系统分析方法,对于大量繁杂、无明显数学规律的生态学数据,智能化分析方法具有明显的优势。通过智能化生态学研究体系的建立,可以减少生态学建模工作中的人为偏差,提高建模的速度和自动化程度,减少重复性工作。智能化研究方法还有利于规范研究工作流程和研究标准、在生态学分类、生态学行为特征表达、图像及特征识别、非线性系统优化、突发生态学事件分析、生态进化机理研究、全球尺度的生态学过程模拟等方面都有广泛的用途。

3大数据计算生态发展历程

计算生态学作为一门新兴学科,是1998年在意大利统计生态学大会上正式被提出的。经过数年的发展,计算生态学现正处于起步阶段,一些发达国家如美国正向成熟阶段迈进。由于计算生态学在生态学研究的各个环节都赋予新意,因此其应用领域十分广泛,涉及到个体、种群、群落、生态系统等各个方面,研究尺度涉及到从宏观到微观的各个领域。

目前计算生态学发展比较成熟的领域是对系统行为的解释和预测能力正逐步加强,随着

生态学问题复杂性的增强,人工生命方法和元胞自动机方法被广泛应用于生态学研究中,如PolyWar Id是一个基于人工生命方法的计算生态学仿真器,它模仿生物有机体的两性繁殖、生存竞争,从周围环境摄食等一系列从生存到死亡的整个过程,从个体到种群一系列复杂的生态

学行为都被展现在不同模仿器中。计算生态学待加强的是技术应用领域。

目前,世界各国都致力于这一新兴领域的研究,建立了许多研究计算生态学的专门机

构,这些机构的研究代表了国际先进水平。

(D耶鲁生物研究所计算生态学中心(CCE )

耶鲁生物研究所成立1991年,其研究领域集中在全球变化、生物进化和多样性、人类与地球及其他生命形式的关系等。计算生态学中心(简称CCE )的主要任务是开仿真数学工具和计算工具、生态模型的分析及开发支持国家政策发布和环境管理的软件工。2002年6月1日C E关闭,但本中心的研究人员又组成了一个新的研究中心一生物多样性保护和科学中心(简称CBCS ).主要从事仿真技术及软件的开发,并用于生物多样性的保护研究中.其主要研究成果如Gecko是一个用Java编写的建立在Courseware软件上的生态系统动力学模拟器,其中的每个个体都被看作自由运动的椭球体,目前主要用于导致生态系统稳定性因素的研究。Bacsim是Gecko的进一步延伸,在Swarm软件平台上用于模拟菌落的形成.

(2)佛罗里达环境研究所

该研究所是一个非赢利机构,于1 9 9 8年建立,主要从事计算生态学和遥感技术的研究.其主要研究目标是建立生态预测模型来监控和预测人为因素与自然因素对海洋生态系统的影响,为完成此目标,研究所还开发了一些用于生物、化学、物理和光学数据分析的工具.

(3 )计算生态学与可视化实验室(C E V L)

计算生态学与可视化实验室(简称C E V L )建于1998年,其主要目标是促进生态学与现代技术的结合,教师和学生可以用数学模型进行空间分析和建立可视化系统来研究局部的、国家的、全球的生态学问题。C E V L使用Uni x和P c环境支持数据分析,所用的软件主要有:G IS软件、数据提取和可视化处理软件、Oracle数据库、Photoshop等图像处理软件。目前的研究方向主要有:大尺度生物有机体相互作用、生物多样性在农业中的作用、区域作物生产力与气候的关系、土地利用与土地覆盖(L U LC)动力机制研究等

4计算生态学采用的计算机辅助决策技术

“工欲善其事,必先利其器”,计算生态学从传统的生态学计算领域独立出来有赖于现代计算机技术,需要在相对稳定的辅助决策技术支撑下(工作平台)来完成复杂的生态学计算任务,一个稳定的工作平台是计算生态学与其它生态学计算分支的区别,也是计算生态学走向成熟的标志。

目前的生态学计算较多的是在通用计算软件下运算,如Statistics. Origin, Spss 等统计分析软件,就生态学的复杂程度而言,上述软件的功能是远远不够的,一方面不具备数字化功能,同时也不支持对多媒体数据的处理,智能化分析功能较低,就目前的计算分析软件发展趋势来看,MATLAB系统分析技术和GIS地理信息技术将成为生态学计算的辅助决策技术。

MATLAB I作平台的原意为数学实验室,是目前公认的标准数值分析软件,在航空、医学、电子、机械制造及自动控制方面都有广泛的应用。该平台具备数字化、可视化和智能化分析功能,同时,在MATLAB平台上集成了各种复杂的数学工具,便于开展综合性计算。该平台支撑下的模糊分析、人工神经网络分析、小波分析、统计分析和系统仿真等工具同样可以进行生态学系统分析、生态学图像处理和生态系统仿真研究,包括声音、图像和视频的处理,适合于从宏观到微观的生态学研究.基本满足了目前生态学计算工作的要求。MATLAB平台具有公开程序代码的二次开发功能,程序简单易学、开发周期短,便于编制专业生态学计算分析软件。基于生态学计算的需要,MATLAB将成为计算生态学主要的辅助决策支撑技术。

与传统的图形技术相比,GIS地理信息系统具有空间分析和图形运算功能,可视化和数字化特性更适合于研究生态学行为与生态系统。目前已经建立了许多专业性的GIS图像数据和生态学专业软件,如野生动物濒危预测、森林经营管理GIS软件,与MATLAB 相同,GIS更适合于研究宏观生态学问题。GIS也具有相当强大的二次开发能力,在开展地区性、专业性的研究中,GIS的图形可视化功能不断地得到加强。目前GIS的三维空间分析功能的实现给生态学的研究带来新的契机,为真正的三维生态空间分析提供了可能。具体工作实施过程中,GIS还应进一步结合GPS卫星定位和遥感技术,用来获取宏观生态学数据和信息,其稳定的数据库功能也是计算生态学开展标准化研究的具体体现。

5大数据计算生态发展趋势

1995年9月由圣地亚哥超型计算机中心、生态分析国家中心、超型计算机应用中心联合发起,在圣地亚哥超型计算机中心建立了一个工作站,召集生态学家、计算机科学家共同研究阻碍生态学发展的技术问题.经工作站研究人员的研究确立了需要发展的3个技术领域:数据处理、建模和可视化.

(D数据处理

生态学数据处理不同于其他学科的数据处理,其一,生态学问题的时间尺度长、空间跨度

大,数据类型复杂多样,元数据也像数据本身一样复杂多样,这就为数据共享带来障碍.目前数据共享是计算生态学面临的一大挑战,它涉及到知识产权和数据所有权的问题,目前缺乏

制度上的激励机制.其二,相对于时空跨度而言,生态学数据稀少,这将影响到生态学计算的准确性.美国物理学家Anderson认为解决数据少的一个措施是公众的参与,Salmon Web是一

个公众参与的网站,人们可以在线学习如何收集科学数据,监控周围环境,把有用信息输人

数据库供科学家备用.其三,尽管相对于时空跨度而言,生态学数据稀少,但我们现在对数据的收集能力远大于对数据的分析、提取、利用能力,这涉及到计算机软硬件的发展问题,尽

管现在计算机科学有了很大进步,但往往技术的进步会带来更大的技术挑战。

(2 )可视化

目前计算生态学可视化技术的最大问题是可视化方法的研究,对于不同的生态学分析,哪

种可视化方法更能帮助人们提高对生态过程的理解,基础的分析错误如统计错误如何能可视化展现出来,如何使可视化结果之间具有可比较性等是可视化技术面临的最大挑战。

(3 )建模

模型是现实世界自然系统的缩影,生态学模型要考虑随机因素、从个体到系统不同等级的变化、外部因素如人类的影响等.随着生态学研究尺度的扩大,单个模型难以准确描述生态学问题,不同等级的模型结合是计算生态学建模技术的一大挑战. 目前比较成功的一个例子是助Louis J Gross与他的同事建立的ATLSS模型.它用于模拟湿地环境中不同成分的相互作用,由于作用存在于不同的生物体和时空尺度上,单一模型方法不再适合,用一个模型集把3种不同营养级水平的模型接合起来:低营养级(如浮游动物)水平的过程模型、种群模型、以种群为个体的模型.这3个模型通过湿地的淡水景观连接起来并转换为GIS数据,产生植被图、土地利用图、土地类型图、道路图、种群密度图,最后所有信息构成一个水文学模型,用来评价不同的景观恢复措施对湿地内各成分的影响。

3总结

有关生态学计算的研究由来已久、但总体上还是一种“破碎化"的研究状况,缺少可以被重复的生态学模型或计算方法。由于计算成果的继承十分困难、在很大程度上限制了生态学的发展、因此,构建一个完备的计算体系和计算模式就显得十分重要。

计算生态学是在生物数学、统计生态学等基础上发展起来的生态学分支,注重数字化的数据采集、模型化框架构建、可视化的表达方式和智能化的思维模式,以相对稳定的工作平台为特征。计算生态学注重生态过程反演和生态进程仿真,在揭示生态学过程和机理以及全球性生态学问题的研究方面、计算生态学具有明显的优势。

随着计算理论、方法和计算机技术的进一步发展,计算生态学将成为生态学计算的有效方法,在生态学研究中发挥重要的作用。

参考文献

[1]聂芹,陈家治,高峻.基于数据处理的计算生态学研究现状[J].上海师范大学学报自然

科学版),1000-5137(2004)02-0102-06

[2]郭自宽张兴旺麦范金.大数据生态系统在图书馆中的应用[J].微计算机信息,2009,

25( 21) :108 -110.

[3]丛沛桐、阎秀峰、赵则海、于景华、祖元刚?计算生态学的形成与发展[J].吉林广播

电视大学学报,1000-4890( 2002) 01-0058-04

大数据时代企业生态系统的演化与建构

“大数据”时代企业生态系统的演化与建构 2014年07月03日15:13 来源:《社会科学》(沪)2013年12期作者:资武成字号 打印纠错分享推荐浏览量 373 【作者简介】资武成,湖南师范大学商学院副教授、博士 随着网络技术、通信技术、移动设备技术的融合与发展,信息数据呈现出前所未有的爆发式增长,“大数据”已经引起了学术界的高度关注。《Nature》杂志出版的专刊“Big Data”指出,“大数据”时代的到来将引起一次社会革命,必将对政府治理、企业决策、个人生活产生巨大而深远的影响。2011年《Science》出版的关于数据处理的专刊“Dealing with data”,深入讨论了大数据所带来的机遇和挑战,并指出如果能够有效地组织和使用这些数据,将会发挥科学技术对社会发展的巨大推动作用。全球知名咨询公司麦肯锡提出“大数据”时代已经到来,并认为“大数据”将逐渐成为重要的生产要素,人们对“大数据”的运用将预示着新一轮生产率的增长和消费者盈余浪潮的到来。Bughin et al.认为“大数据”时代会产生新的管理模式和规则,“大数据”的挖掘和应用能驱动企业获取竞争优势。 在实践中,大量的企业也已经关注并应用“大数据”为企业决策服务,苹果、微软、IBM、三星、阿里、华为、腾讯等知名企业均已开始建构基于“大数据”的企业生态系统。因此,在“大数据”时代,企业生态系统的运行环境和运营模式会发生哪些变化?企业生态系统如何演化?如何基于“大数据”构建完善的企业生态系统都是迫切需要研究的现实问题。 一、“大数据”及企业生态系统的内涵 “大数据”(Big data)目前还没有一个明确的定义,Manish et al.认为,“大数据”是指多种来源、多形式的、实时的“大数据”集合,需要专业化软件工具和分析专家去收集、处理和管理的数据集合。Archak 等提出,“大数据”是需要新的处理方式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。李国杰等学者认为“大数据”是指无法在可容忍的时间内用传统IT技术和软硬件工具对其进行感知、获取、管理和服务的数据集合,并表示“大数据”具有“4V”特征:①海量数据(Volume),数据集合的规模已从GB到TB再到PB级,甚至已经开始以EB和ZB来计算;②类型复杂(Variety),“大数据”类型包括结构化数据、半结构化数据和非结构化数据;③实时处理(Velocity),“大数据”通常以数据流的形式动态、快速地产生,具有很强的时效性,数据的状态与价值也随时空变化而发生改变;④价值巨大(Value),通过对浩瀚的毫无关联的“大数据”进行挖掘和分析,能找出商业活动的本质规律和趋势,发现“大数据”背后隐藏着的经济价值。 企业生态系统(Business Ecosystem)最早是由美国学者James Moore提出的,他借用生态学的概念来解释企业组织及其与环境之间的关系。Moore,J.认为企业生态系统是指由相互作用的企业组织与个人所形成的经济群体,包括生产商、销售商、消费者、供应商、投资商、竞争者、互补者、企业所有者以及有关的政府。该概念表示企业生态系统是一个相对开放的系统,这个系统中所有的组成要素相互影响、相互促进;同时,企业生态系统也会受到外部环境的制约和影响,企业生态系统在各种内外部力量的作用下得到演化和发展。 “大数据”背景下,企业生态系统和外部环境之间的边界日趋模糊,信息共享和知识溢出已成为企业生态系统中各成员合作竞争与协同演化的主要方式之一。在这种竞争环境下,信息和知识成了企业经营管

大数据行业生态图谱

大数据行业生态图谱3.0——信息图 发表于2014-05-29 15:07| 1774次阅读| 来源中国大数据| 2条评论| 作者佚名 大数据分布式文件系统风险投资 摘要:2012年,FirstMark资本的MattTurck绘制了大数据生态地图2.0版本,涵盖了大数据的38种商业模式,被业界奉为大数据创业投资的清明上河图。两年后的今天,经过漫长的等待,Turck终于推出大数据生态地图3.0版本。 【编者按】创业者们纷纷涌入大数据市场,尾随的VC们也是挥金如土,导致大数据创业市场目前已经非常拥挤。虽然大数据创业市场已经人山人海,但是依然有足够的空间给新的创业公司,现阶段大数据基础设施和分析工具领域的创新吸引了大量的资金,FirstMark资本的MattTurck绘制了大数据生态地图2.0版本,涵盖了大数据的38种商业模式,被业界奉为大数据创业投资的清明上河图。经过漫长的等待,Turck终于推出大数据生态地图3.0版本。他对大数据市场的几个最为关键的演变趋势做出预测。 以下为原文: 2012年,FirstMark资本的MattTurck绘制了大数据生态地图2.0版本,涵盖了大数据的38种商业模式,被业界奉为大数据创业投资的清明上河图。两年后的今天,经过漫长的等待,Turck终于推出大数据生态地图3.0版本。(期间bloomberg推出过一个2013版大数据生态地图)

在大数据生态地图3.0版中,Turck从一个风险投资者的角度对两年来大数据市场的最新发展进行了深入的研判,并对未来趋势进行解读,以下是Turck眼中大数据市场的几个最为关键的演变趋势: 竞争加剧:创业者们纷纷涌入大数据市场,尾随的VC们也是挥金如土,导致大数据创业市场目前已经非常拥挤。例如一些创业项目类别,例如数据库(无论是NoSQL还是NewSQL),或者社交媒体分析,目前正面临整合或去泡沫化(随着Twitter收购BlueFin和GNIP,社交分析领域的整合已经开始) 虽然大数据创业市场已经人山人海,但是依然有足够的空间给新的创业公司,现阶段大数据基础设施和分析工具领域的创新吸引了大量的资金,当然,这类大数据创业本来就是资金密集型项目。 大数据市场尚处于初期阶段:虽然大数据的概念已经热炒了数年,但我们依然处于市场的早期阶段,虽然过去几年类似Drawn和Scale这样的公司失败了,但是相当多的公司已经看到了胜利的曙光,例如Infochimps、Causata、Streambase、ParAccel、Aspera、GNIP、BlueFinLanbs、BlueKai等。 还有不少大数据创业公司已经形成规模和气候,并且获得了海量融资,例如MongoDB已经募集2.3亿美元,Plalantir9亿,Cloudera1亿。但是就成功的IPO或公司而言,市场尚处于早期阶段(虽然已经有Splunk、Tableau等成功IPO)。 此外,目前阶段一些传统IT巨头已经展开了收购大战,例如Oracle收购BlueKai和IBM收购Cloudant。在很多大数据创业领域,创业公司们依然在为市场领袖的地位展开混战。 从炒作回归现实:虽然经过几年声嘶力竭的热潮后,媒体对大数据已经有些审美疲劳,但这恰恰是大数据真正落地的重要阶段的开始。未来几年是大数据市场竞争的关键时期,企业的大数据应用从概念验证和实验走向生产环境,这意味着大数据厂商的收入将快速增长。当然,这也是一个检验大数据是否真的有“大价值”的时期。 大数据基础设施:虽然Hadoop已经确立了其作为大数据生态系统基石的地位,但市场上依然有不少Hadoop的竞争和替代产品,但这些产品还需要时间进化。基于Hadoop分布式文件系统的开源框架Spark近来成为人们讨论的热门话题,因为Spark能够弥补Hadoop的短板,例如提高互动速度和更好的编程界面。而快数据(实时)和内存计算也始终是大数据领域最热门的话题。一些新的热点也在不断涌现,例如数据转换整理工具Trifacta、Paxata 和DataTamer等。 时下一个关键的争论是企业数据是否会转移到云端(公有云或者私有云),如果是,什么时候会发生?一些基于云端的Hadoop服务创业公司例如Qubole、Mortar坚信从长远看所有企业数据最终都会转移到云端。

中国大数据产业生态图谱2016553

中国大数据产业生态图谱20165535 中国大数据产业生态图谱2016 2016/2/3 大数据大价值 2 大数据生态系统日臻完善 互联网大数据:互联网环境下蕴含丰富洞察、决策和优化能力的海量、高增长率和多样复杂化的信息资产 数据收集 数据管理 数据使用 数据采集 从数据源收集、识别和选取数据的 产品服务提供者 数据挖掘

从大量的数据中自动搜索隐藏于其中的有着特殊关系性的产品服 务提供者 商业智能 利用多种数据处理技术进行数据分析以实现商业价值的产品服务 提供者 数据可视化 将数据的各个属性值以多维的形式表示,从而对数据进行更深入的观察和分析的产品服务提 供者 数据仓库

为企业各级别的决策制定过程 提供所有类型数据支持的战略 集合的产品服务提供者 第三方数据平台 位置图片文本音视频其他 数据源 某种所需要数据的原始媒体服务提供者。数据源可以是任何数据类型,但必需可靠且具备更新能力 云存储平台 家用医疗监控 健康监控 运动健康 语音智能识别数据交易 技术服务

面向细分领域的专业化数据 管理技术服务提供者 ETL技术服务基础架构服务 开源技术服务大数据社区 语音智能识别 安防行业 人才招聘行业 电信行业金融行业 企业征信行业医疗卫生行业娱乐行业农业行业交通行业 个人征信行业 垂直化应用 移动开发者服务商业WIFI

WEB 流量分析业务性能管理信息安全 精准营销地理位置应用智慧城市 互联网舆情 行业化应用 专注于实现某种垂直化功能的大数据应用产品服务提供者专注于解决某些行业业务问题的大数据应用产品服 务提供者 将互联网中大量不同类型的存储设备通过应 用软件集合起来协同工作,共同对外提供数 据存储和业务访问功能的平台 独立于数据源和数据使用者,提供专业 化的、依托于网络的数据监测、数据交 易、数据管理等服务的平台 物联网

大数据在生态学中应用

大数据在生态学中应用 摘要:随着科技的不断发展,大数据时代已经来临,国内外各行业对大数据的应用已进行了实践与探索,大数据成为人们分析事物、观察生活的显微镜。在生态学中,数据挖掘技术对生态系统的保护具有自动化、实时化和智能化的优点,并且提高工作效率、节约资金,因此,及时、高效、准确的生态数据获取是分析生态保护机制,获取最佳生态经济效益,使生态环境良性发展的前提。我国大数据产业的发展尚处于初级阶段,在应用时既要吸收和消化西方先进的技术和经验,又要鼓励自主创新,迎头赶上,让科学指引决策。 关键词:大数据;生态学;数据挖掘 随着科学技术的不断发展,数据在社交网络、云计算、移动互联网等的推动下,呈爆炸式增长[1]。2012年3月,“大数据的研究和发展计划”由美国奥巴马政府推出[2]。该计划投资两亿多美元,大力发展大数据的收集和分析技术,改善其分析工具,从而推进从海量数据中获取各种资源的能力。2012年7月,“首届中国大数据应用论坛”在我国北京大学举行[3]。论坛议题涉及大数据的发展趋势、大数据在不同领域中的应用、云计算和大数据、大数据和商业智能等方面,旨在探讨大数据在当代社会的应用价值。同时,生态保护问题愈来愈严峻,环境污染所带来的问题成为全国各大城市的热点问题,而通过对大数据的分析和应用可以解决这

些问题。为此,准确、高效、及时的获取生态数据是分析生态管理机制、构建和谐社会的前提[4]。 一、大数据概述 1.1大数据的概念 “大数据”是通过对各种数据的整合、共享和交叉分析,在云计算的数据处理模式和应用方法的基础上,由结构复杂、类型众多、数量巨大的数据所构成的集合[5]。大数据的特点可以总结为4个V,即Volume(体量浩大)、Variety(模态繁多)、Velocity(生成快速)和Value(价值巨大但密度很低)[6]。而大数据在人们的认识中,最直观的印象就是大量复杂数据被处理,最终形成对人们有价值的信息,这些信息中,包含各行各业大量具有潜在价值的规律,因此,大数据成为信息时代人们新的关注焦点。现在,各个国家众多的科研机构、政府部门和企事业单位高度关注大数据,对大数据进行跟踪,形成了一轮对大数据的研究热潮[7,8]。从生态学角度来看,大数据这个“环境切入点”与以往环境问题的处理不同之处在于,它不是一个未被挖掘的环境管理视点,而是一个方法、规律等确定,静待被应用的切入点,科技界、学术界、政府把它看成一座可能挖掘出巨大财富的“金矿”、“富矿”,各行各业均在探寻大数据层面上的有效技术分析手段[9,10],同样,对于生态学上,大数据也将引发新的热潮。

大数据的特征与发展趋势

大数据时代的特征与发展趋势 在云计算、物联网等技术的带动下,中国已步入…大数据?时代。邬贺铨说,我们正在进行一场全新的革命,庞大的数据带来的量化转变将在各领域迅速蔓延,没有哪个领域能够逃脱它的影响。据有关机构测算,大数据已成为全球IT产业中增长最快的领域。2010年全球大数据以及相关的硬件、软件和服务市场达到30亿美元,2015年将超过170亿美元,平均年增长速度超过50%。作为全球大数据产业的重要组成,中国大数据潜在市场规模未来有望达到2万亿人民币。身处“大数据”时代,中国正多方位布局“大数据”产业,各地政府、通信公司、科研院所、IT企业等都“摩拳擦掌”,希望能分到“一杯羹”。 1.大数据的含义 大数据(big data),或称巨量资料,指的是所涉及的资料量规模巨大到无法透过目前主流软件工具,在合理时间内达到撷取、管理、处理、并整理成为帮助企业经营决策更积极目的的资讯。大数据”这个术语最早期的引用可追溯到apache org的开源项目Nutch。当时,大数据用来描述为更新网络搜索索引需要同时进行批量处理或分析的大量数据集。随着谷歌MapReduce和GoogleFile System (GFS)的发布,大数据不再仅用来描述大量的数据,还涵盖了处理数据的速度。 2.大数据的特征 关于大数据的特征,业内专业认识人士表示,可以用很多词语来表示。比较有代表性的即为2001年DougLaney最先提出“3V”模型,包括数量(V olume)、速度(Velocity)和种类(Variety)【1】。除此之外,在3V的基础上又提出了一些新的特征。关于第四个V的说法不一,IDC 认为大数据还应当具有价值性(Value),大数据的价值往往呈现出稀疏性的特点。而IBM 认为大数据必然具有真实性(Veracity)。维基百科对大数据的定义则简单明了:大数据是指利用常用软件工具捕获、管理和处理数据所耗时间超过可容忍时间的数据集【2】。如今,业内人士已经将其扩展到了11个V,包括有效性、可见性等。 下面就目前使用最多的“4V”模型进行分析。“4V”特征主要体现在以下方面: 2.1.规模性(volume) V olume指的是数据巨大的数据量以及其规模的完整性。数据的存储TB扩大到ZB。这与数据存储和网络技术的发展密切相关。数据的加工处理技术的提高,网络宽带的成倍增加,以及社交网络技术的迅速发展,使得数据产生量和存储量成倍增长。实质上,在某种程度上来说,数据的数量级的大小并不重要,重要的是数据具有完整性。数据规模性的应用有如下的体现,比如对每天12 tb的tweets进行分析,了解人们的

大数据生态系统科学图谱组成及生态发展

大数据生态系统科学图谱组成及生态发展 (一)大数据的生态发展 在喜新厌旧的技术初创企业界,已有3年历史“大数据”听起来似乎已经过气了。虽然Hadoop在2006年已经出来,但“大数据”这个概念大概是在2011到2014年左右才真正火起来的。也就是在这段时间里,至少是在媒体或者专家眼里,“大数据”成为了新的“金子”或者“石油”。然而,至少在我跟业界人士交谈中,大家越来越感觉到这项技术已经在某种程度上陷入了停滞。2015年可能是数据领域的那些酷小子转移兴趣,开始沉迷于AI以及机器智能、深度学习等许多相关概念的年份。

图6.1:2016年大数据版图 抛开不可避免的炒作周期曲线态势不管,我们的“大数据版图”已经进入第4个年头了,趁这个时候退一步来反思一下去年发生了什么,思考一下这个行业的未来会怎样是很有意义的。 大数据有趣的一点在于,它不再像当初经历过那样有可能成为炒作的题材了。 经过炒作周期后仍能引起广泛兴趣的产品和服务往往那些大家能够接触、可以感知,或者与大众相关联的:比如移动应用、社交网络、可穿戴、虚拟现实等。

但大数据基本上就是管道设施的一种。当然,大数据为许多消费者或商业用户体验提供了动力,但它的核心是企业技术:数据库、分析等,这些东西都是在后端运行的,没几个人能看得见。就像在那个世界工作的任何人都知道那样,用一个晚上的时间就想适应企业端的新技术是不可能的。 大数据现象在早期主要是受到了与一批骨干互联网公司的共生关系的推动,这些公司既是核心大数据技术的重度用户,同时也是这些技术的创造者。这些公司突然间面对着规模前所未有的庞大数据时,由于本身缺乏传统的(昂贵的)基础设施,也没有办法招募到一些最好的工程师,所以只好自己动手来开发所需的技术。后来随着开源运动的迅速发展,一大批此类新技术开始共享到更广的范围。然后,一些互联网大公司的工程师离职去创办自己的大数据初创企业。其他的一些“数字原生”公司,包括崭露头角的独角兽公司,也开始面临着互联网大公司的类似需求,由于它们自身也没有传统的基础设施,所以自然就成为了那些大数据技术的早期采用者。而早期的成功又导致了更多的创业活动发生,并获

大数据现状分析 生态系统正在走向成熟

大数据现状分析生态系统正在走向成熟 技术型的高科技创业公司都喜欢闪闪发光的新东西,而“ Spark带着Hadoop飞 2015年毫无疑问是Apache Spark最火的一年,这是一个开源框架,利用内存中做处理。这开始得到了不少争论,从我们发布了前一版本以来,Spark被各个对手采纳,从IBM到Cloudera都给它相当的支持。Spark的意义在于它有效地解决了一些使用Hadoop很慢的关键问题:它的速度要快得多(基准测试表明:Spark比Hadoop的MapReduce的快10到100倍),更容易编写,并非常适用于机器学习。 其他令人兴奋的框架的不断涌现,并获得新的动力,如Flink,Ignite,Samza,Kudu等。一些思想领袖认为Mesos的出现(一个框架以“对你的数据中心编程就像是单一的资源池”),不需要完全的Hadoop。即使是在数据库的世界,这似乎已经看到了更多的新兴的玩家让市场持续,大量令人兴奋的事情正在发生,从图形数据库的成熟(Neo4j),此次推出的专业数据库(时间序列数据库InfluxDB),CockroachDB,(受到谷歌Spanner启发出现,号称提供二者最好的SQL和NoSQL),数据仓库演变(Snowflake)。 大数据分析:现在的AI 在过去几个月的大趋势上,大数据分析已经越来越注重人工智能(各种形式和接口),去帮助分析海量数据,得出预测的见解。 最近AI的复活就好比大数据生的一个孩子。深度学习(获取了最多的人工智能关注的领域)背后的算法大部分在几十年前,但直到他们可以应用于代价便宜而速度够快的大量数据来充分发挥其潜力(Yann LeCun, Facebook深度学习研究员主管)。AI和大数据之间的关系是如此密切,一些业内专家现在认为,AI已经遗憾地“爱上了大数据”(Geometric Intelligence)。反过来,AI现在正在帮助大数据实现承诺。AI /机器学习的分析重点变成大数据进化逻辑的下一步:现在我有这些数据,我该怎么从中提取哪些洞察?当然,这其中的数据科学家们- 从一开始他们的作用就是实现机器学习和做出有意义的数据模型。但渐渐地机器智能正在通过获得数据去协助数据科学家。新兴产品可以提取数学公式(Context Relevant)或

大数据架构与关键技术[精品文档]

4大数据参考架构和关键技术 4.1大数据参考架构 大数据作为一种新兴技术,目前尚未形成完善、达成共识的技术标准体系。本章结合NIST 和JTC1/SC32的研究成果,结合我们对大数据的理解和分析,提出了大数据参考架构(见图5)。 图5 大数据参考架构图 大数据参考架构总体上可以概括为“一个概念体系,二个价值链维度”。“一个概念体系”是指它为大数据参考架构中使用的概念提供了一个构件层级分类体系,即“角色—活动—功能组件”,用于描述参考架构中的逻辑构件及其关系;“二个价值链维度”分别为“IT价值链”和“信息价值链”,其中“IT价值链”反映的是大数据作为一种新兴的数据应用范式对IT技术产生的新需求所带来的价值,“信息价值链”反映的是大数据作为一种数据科学方法论对数据到知识的处理过程中所实现的信息流价值。这些内涵在大数据参考模型图中得到了体现。 大数据参考架构是一个通用的大数据系统概念模型。它表示了通用的、技术无关的大数据系统的逻辑功能构件及构件之间的互操作接口,可以作为开发各种具体类型大数据应用系统架构的通用技术参考框架。其目标是建立一个开放的大数据技术参考架构,使系统工程师、数据科学家、软件开发人员、数据架构师和高级决策者,能够在可以互操作的大数据生态系统中制定一个解决方案,解决由各种大数据特征融合而带来的需要使用多种方法的问题。它提供了一个通用的大数据应用系统框架,支持各种商业环境,包括紧密集成的企业系统和松散耦合的垂直行业,有助于理解大数据系统如何补充并有别于已有的分析、商业智能、数据库等传统的数据应用系统。

大数据参考架构采用构件层级结构来表达大数据系统的高层概念和通用的构件分类法。从构成上看,大数据参考架构是由一系列在不同概念层级上的逻辑构件组成的。这些逻辑构件被划分为三个层级,从高到低依次为角色、活动和功能组件。最顶层级的逻辑构件是角色,包括系统协调者、数据提供者、大数据应用提供者、大数据框架提供者、数据消费者、安全和隐私、管理。第二层级的逻辑构件是每个角色执行的活动。第三层级的逻辑构件是执行每个活动需要的功能组件。 大数据参考架构图的整体布局按照代表大数据价值链的两个维度来组织,即信息价值链(水平轴)和IT价值链(垂直轴)。在信息价值链维度上,大数据的价值通过数据的收集、预处理、分析、可视化和访问等活动来实现。在IT价值链维度上,大数据价值通过为大数据应用提供存放和运行大数据的网络、基础设施、平台、应用工具以及其他IT服务来实现。大数据应用提供者处在两个维的交叉点上,表明大数据分析及其实施为两个价值链上的大数据利益相关者提供了价值。 五个主要的模型构件代表在每个大数据系统中存在的不同技术角色:系统协调者、数据提供者、大数据应用提供者、大数据框架提供者和数据消费者。另外两个非常重要的模型构件是安全隐私与管理,代表能为大数据系统其他五个主要模型构件提供服务和功能的构件。这两个关键模型构件的功能极其重要,因此也被集成在任何大数据解决方案中。 参考架构可以用于多个大数据系统组成的复杂系统(如堆叠式或链式系统),这样其中一个系统的大数据使用者可以作为另外一个系统的大数据提供者。 参考架构逻辑构件之间的关系用箭头表示,包括三类关系:“数据”、“软件”和“服务使用”。“数据”表明在系统主要构件之间流动的数据,可以是实际数值或引用地址。“软件”表明在大数据处理过程中的支撑软件工具。“服务使用”代表软件程序接口。虽然此参考架构主要用于描述大数据实时运行环境,但也可用于配置阶段。大数据系统中涉及的人工协议和人工交互没有被包含在此参考架构中。 (1)系统协调者 系统协调者角色提供系统必须满足的整体要求,包括政策、治理、架构、资源和业务需求,以及为确保系统符合这些需求而进行的监控和审计活动。系统协调者角色的扮演者包括业务领导、咨询师、数据科学家、信息架构师、软件架构师、安全和隐私架构师、网络架构师等。系统协调者定义和整合所需的数据应用活动到运行的垂直系统中。系统协调者通常会涉及到更多具体角色,由一个或多个角色扮演者管理和协调大数据系统的运行。这些角色扮演者可以是人,软件或二者的结合。系统协调者的功能是配置和管理大数据架构的其他组件,来执行一个或多个工作负载。这些由系统协调者管理的工作负载,在较低层可以是把框架组件分配或调配到个别物理或虚拟节点上,在较高层可以是提供一个图形用户界面来支持连接多个应用程序和组件的工作流规范。系统协调者也可以通过管理角色监控工作负载和系统,以确认每个工作负载都达到了特定的服务质量要求,还可能弹性地分配和提供额外的物理或虚拟资源,以满足由变化/激增的数据或用户/交易数量而带来的工作负载需求。 (2)数据提供者 数据提供者角色为大数据系统提供可用的数据。数据提供者角色的扮演者包括企业、公共代理机构、研究人员和科学家、搜索引擎、Web/FTP和其他应用、网络运营商、终端用户等。在一个大数据系统中,数据提供者的活动通常包括采集数据、持久化数据、对敏感信息进行

中国大数据产业生态图谱

中国大数据产业生态图谱

大数据生态系统日臻完善 互联网大数据:互联网环境下蕴含丰富洞察、决策和优化能力的海量、高增长率和多样复杂化的信息资产 数据收集 数据管理 数据使用 数据采集 数据挖掘商业智能数据可视化 数据仓库第三方数据平台 位置图片文本音视频其他 云存储平台 家用医疗监控 健康监控 运动健康 ETL技术服务基础架构服务 开源技术服务大数据社区 技术服务物联网 安防行业 交通行业 商业WIFI语音智能识别 语音智能识别 数据交易 农业行业人才招聘行业 电信行业金融行业个人征信行业 企业征信行业医疗卫生行业娱乐行业 移动开发者服务 WEB流量分析业务性能管理信息安全 精准营销 地理位置应用智慧城市 互联网舆情 行业化应用 数据分析 数据源 垂直化应用

数据挖掘 商业智能 数据可视化 垂直化应用数据交易 移动智能终端 商业WIFI 语音语音智能识别智能识别电信行业 金融行业 个人征信行业 …… ……………… …… ………… 企业征信行业医疗卫生行业娱乐行业 数据使用 互联网舆情 WEB 流量分析 产品数据分析 信息安全 …… ………… …… …… …… …… 农业行业 人才招聘行业 交通行业 …… 地理位置数据源地理位置应用 精准营销 智慧城市 安防行业 ………… ………… …… …… …… 数据仓库技术平台 云存储第三方数据平台物联网ETL 技术服务 基础架构服务 …… …… 家用医疗监控 数据管理 …… 开源技术服务 大数据社区 …… …… 健康监控 …… 数据源 位置 图片 文本 音视频 …… 数据采集 运动健康 …… 数据收集 行业化应用依托于信息化及互联网化的加速 行业化应用 电信行业 金融行业个人征信行业 企业征信行业 医疗娱乐行业农业行业人才招聘行业交通行业安防行业 卫生行业

科学名词及解释—第五讲 生态系统服务

生态系统服务 生态系统服务( Ecosystem services): 生态系统服务指人类从生态系统获得的所有惠益,包括供给服务(如提供食物和水)、调节服务(如控制洪水和疾病)、文化服务(如精神、娱乐和文化收益)以及支持服务(如维持地球生命生存环境的养分循环)。生态系统产品和服务是生态系统服务功能的同义词。 (1)供给服务 (Provisioning services):由生态系统生产的或提供的服务 ?食物(农作物、家畜、捕鱼、水产养殖、野生生物) ?纤维(原木、棉花、大麻、蚕丝、薪柴) ?遗传资源 ?生物化学品 ?淡水 (2)调节服务(Regulating services):由生态系统过程的调节功能所得到的益惠 调节大气质量 ?调节气候 ?减轻侵蚀 ?净化水 ?调节疾病 ?调节病虫害 ?授粉作用 ?调节自然灾害 (3).文化服务 (Cultural services):由生态系统获取的非物质益惠 ?精神和宗教价值 ?知识系统 ?教育价值 ?灵感 ?审美价值 ?社会联系 ?地方感 ?休闲和生态旅游 (4).支持服务(Supporting services): 生态系统为提供其它服务(如供给服务、调节服务和文化服务)而必需的一种服务功能,例如生产生物量、生产大气氧气、形成和保持土壤、养分循环、水循环以及提供栖息地。 生态系统服务价值与评估: 全球生态系统服务价值美国康斯坦扎等人在测算全球生态系统服务价值时,采用或构造了物质量评价法、能值分析法、市场价值法、机会成本法、影子价格法、影子工程法、费用分析法、防护费用法、恢复费用法、人力资本法、资产价值法、旅行费用法、条件价值法等一系列方法分别对每一类子生态系统进行测算,最后进行加总求和,计算出全球生态系统每年能够产生的服务价值。每年的总价值为16~54万亿美元,平均为33万亿美元。33万亿美元是1997年全球GNP的1.8倍。

相关文档
相关文档 最新文档