文档库 最新最全的文档下载
当前位置:文档库 › 大数据环境下的数据安全研究

大数据环境下的数据安全研究

大数据环境下的数据安全研究
大数据环境下的数据安全研究

大数据环境下的数据安全研究

摘要:大数据蕴藏着价值信息,但数据安全面临严峻挑战。本文在分析大数据基本特征的基础上,提出了当前大数据面临的安全挑战,并从大数据的存储、应用和管理等方面阐述了大数据安全的应对策略。

关键词:大数据;数据安全;云计算;数据挖掘

Abstract:The Big Data contain Valuable information,However, data security is facing serious challenges。based on the analysis of the basic characteristics of the Big Data,The paper propose the current risk of Big Data,and further from the Big Data’s storage, application and management expounds the Big Data Security strategy.

Key words:Big Data;Data security;Cloud Computing;Data Mining

0引言

随着互联网、物联网、云计算等技术的快速发展,以及智能终端、网络社会、数字地球等信息体的普及和建设,全球数据量出现爆炸式增长,仅在2011年就达到1.8万亿GB。IDC 预计,到2020年全球数据量将增加50倍。毋庸臵疑,大数据时代已经到来。一方面,云计算为这些海量的、多样化的数据提供存储和运算平台,同时数据挖掘和人工智能从大数据中发现知识、规律和趋势,为决策提供信息参考。但是,大数据的发展将进一步扩大信息的开放程度,随之而来的隐私数据或敏感信息的泄露事件时有发生。面对大数据发展的新特点、新挑战,如何保障数据安全是我们需要研究的课题。

1 大数据的特征

大数据通常被认为是一种数据量很大、数据形式多样化的非结构化数据。随着对大数据研究的进一步深入,大数据不仅指数据本身的规模,也包括数据采集工具、数据存储平台、数据分析系统和数据衍生价值等要素。其主要特点有以下几点:

1.1数据量大

大数据时代,各种传感器、移动设备、智能终端和网络社会等无时不刻都在产生数据,数量级别已经突破TB,发展至PB乃至ZB,统计数据量呈千倍级别上升。据估计,2012年全球产生的数据量将达到2.7ZB,2015年将超过8ZB[1]。

1.2类型多样

当前大数据不仅仅是数据量的井喷性增长,而且还包含着数据类型的多样化发展。以往数据大都以二维结构呈现,但随着互联网、多媒体等技术的快速发展和普及,视频、音频、图片、邮件、HTML、RFID、GPS和传感器等产生的非结构化数据,每年都以60%速度增长。预计,非结构化数据将占数据总量的80%以上[1]。

1.3运算高效

基于云计算的Hadoop大数据框架,利用集群的威力高速运算和存储,实现了一个分布式运行系统,以流的形式提供高传输率来访问数据,适应了大数据的应用程序。而且,数据挖掘、语义引擎、可视化分析等技术的发展,可从海量的数据中深度解析,提取信息,掌控数据增值的“加速器”。

1.4产生价值

价值是大数据的终极目的。大数据本身是一个“金矿产”,可以从大数据的融合中获得意想不到的有价值的信息。特别是激烈竞争的商业领域,数据正成为企业的新型资产,追求数据最大价值化。同时,大数据价值也存在密度低的特性,需要对海量的数据进行挖掘分析

才能得到真正有用的信息,形成用户价值。以监控视频为例,连续的播放画面,可以产生价值信息的数据可能是仅仅的一两秒。

2 大数据面临的安全挑战

正如Gartner所说:“大数据安全是一场必要的斗争”[2]。在大数据时代,无处不在的智能终端、互动频繁的社交网络和超大容量的数字化存储,不得不承认大数据已经渗透到各个行业领域,逐渐成为一种生产要素发挥着重要作用,成为未来竞争的至高点。大数据所含信息量较高,虽然相对价值密度较低,但是对它里面所蕴藏的潜在信息,随着快速处理和分析提取技术的发展,可以快速捕捉到有价值的信息以提供参考决策。然而,大数据掀起新一轮生产率提高和消费者盈余浪潮的同时,随着而来的是信息安全的挑战。

2.1网络化社会使大数据易成为攻击目标

网络化社会的形成,为大数据在各个行业领域实现资源共享和数据互通搭建平台和通道。基于云计算的网络化社会为大数据提供了一个开放的环境,分布在不同地区的资源可以快速整合,动态配臵,实现数据集合的共建共享。而且,网络访问便捷化和数据流的形成,为实现资源的快速弹性推送和个性化服务提供基础。正因为平台的暴露,使得蕴含着海量数据和潜在价值的大数据更容易吸引黑客的攻击。也就是说,在开放的网络化社会,大数据的数据量大且相互关联,对于攻击者而言,相对低的成本可以获得“滚雪球”的收益。近年来在互联网上发生的用户帐号的信息失窃等连锁反应可以看出,大数据更容易吸引黑客,而且一旦遭受攻击,失窃的数据量也是巨大的。

2.2非结构化数据对大数据存储提出新要求

在大数据之前,我们通常将数据存储分为关系型数据库和文件服务器两种。而当前大数据汹涌而来,数据类型的千姿百态也使我们措手不及。对于将占数据总量80%以上的非结构化数据,虽然NoSQL数据存储具有可扩展性和可用性等优点,利于趋势分析,为大数据存储提供了初步解决方案。但是NoSQL数据存储仍存在以下问题:一是相对于严格访问控制和隐私管理的SQL技术,目前NoSQL还无法沿用SQL的模式,而且适应NoSQL的存储模式并不成熟;二是虽然NoSQL软件从传统数据存储中取得经验,但NoSQL仍然存在各种漏洞,毕竟它使用的是新代码。三是由于NoSQL服务器软件没有内臵足够的安全,所以客户端应用程序需要内建安全因素,这又反过来导致产生了诸如身份验证、授权过程和输入验证等大量的安全问题。

2.3技术发展增加了安全风险

随着计算机网络技术和人工智能的发展,服务器、防火墙、无线路由等网络设备和数据挖掘应用系统等技术越来越广泛,为大数据自动收集效率以及智能动态分析性提供方便。但是,技术发展也增加了大数据的安全风险。一方面,大数据本身的安全防护存在漏洞。虽然云计算对大数据提供了便利,但对大数据的安全控制力度仍然不够,API访问权限控制以及密钥生成、存储和管理方面的不足都可能造成数据泄漏。而且大数据本身可以成为一个可持续攻击的载体,被隐藏在大数据中的恶意软件和病毒代码很难发现,从而达到长久攻击的目的。另一方面,攻击的技术提高了。在用数据挖掘和数据分析等大数据技术获取价值信息的同时,攻击者也在利用这些大数据技术进行攻击。

3 大数据安全的应对策略

当然,大数据也为数据安全的发展提供了新机遇。大数据正在为安全分析提供新的可能性,对海量数据的分析有助于更好地跟踪网络异常行为,对实时安全和应用数据结合在一起的数据进行预防性分析,可防止诈骗和黑客入侵。网络攻击行为总会留下蛛丝马迹,这些痕迹都以数据的形式隐藏在大数据中,从大数据的存储、应用和管理等方面层层把关,可以有针对性地应对数据安全威胁。

3.1大数据存储安全策略

基于云计算架构的大数据,数据的存储和操作都是以服务的形式提供。目前,大数据的安全存储采用虚拟化海量存储技术来存储数据资源,涉及数据传输、隔离、恢复等的问题。解决大数据的安全存储,一是数据加密。在大数据安全服务的设计中,大数据可以按照数据安全存储的需求,被存储在数据集的任何存储空间,通过SSL(安全套接层)加密,实现数据集的节点和应用程序之间移动保护大数据。在大数据的传输服务过程中,加密为数据流的上传与下载提供有效的保护。应用隐私保护和外包数据计算,屏蔽网络攻击。目前,PGP和TrueCrypt等程序都提供了强大的加密功能。二是分离密钥和加密数据。使用加密把数据使用与数据保管分离,把密钥与要保护的数据隔离开[4]。同时,定义产生、存储、备份、恢复等密钥管理生命周期。三是使用过滤器。通过过滤器的监控,一旦发现数据离开了用户的网络,就自动阻止数据的再次传输。四是数据备份。通过系统容灾、敏感信息集中管控和数据管理等产品,实现端对端的数据保护,确保大数据损坏情况下有备无患和安全管控。

3.2大数据应用安全策略

随着大数据应用所需的技术和工具快速发展,大数据应用安全策略主要从以下几方面着手:一是防止APT攻击。借助大数据处理技术,针对APT安全攻击隐蔽能力强、长期潜伏、攻击路径和渠道不确定等特征,设计具备实时检测能力与事后回溯能力的全流量审计方案,提醒隐藏有病毒的应用程序。二是用户访问控制。大数据的跨平台传输应用在一定程度上会带来内在风险,可以根据大数据的密级程度和用户需求的不同,将大数据和用户设定不同的权限等级,并严格控制访问权限。而且,通过单点登录的统一身份认证与权限控制技术,对用户访问进行严格的控制,有效地保证大数据应用安全。三是整合工具和流程。通过整合工具和流程,确保大数据应用安全处于大数据系统的顶端。整合点平行于现有的连接的同时,减少通过连接企业或业务线的SIEM工具的输出到大数据安全仓库,以防止这些被预处理的数据被暴露算法和溢出加工后的数据集。同时,通过设计一个标准化的数据格式简化整合过程,同时也可以改善分析算法的持续验证。四是数据实时分析引擎。数据实时分析引擎融合了云计算、机器学习、语义分析、统计学等多个领域,通过数据实时分析引擎,从大数据中第一时间挖掘出黑客攻击、非法操作、潜在威胁等各类安全事件,第一时间发出警告响应。

3.3大数据管理安全策略

云计算专家李志霄博士说:“数据安全三分靠技术,七分靠管理”[5]。通过技术来保护大数据的安全必然重要,但管理也很关键。大数据的管理安全策略主要有:一是规范建设。大数据建设是一项有序的、动态的、可持续发展的系统工程,一套规范的运行机制、建设标准和共享平台建设至关重要。规范化建设可以促进大数据管理过程的正规有序,实现各级各类信息系统的网络互连、数据集成、资源共享,在统一的安全规范框架下运行。二是建立以数据为中心的安全系统。基于云计算的大数据存储在云共享环境中,为了大数据的所有者可以对大数据使用进行控制,可以通过建设一个基于异构数据为中心的安全方法,从系统管理上保证大数据的安全。三是融合创新。大数据是在云计算的基础上提出的新概念,大数据时代应以智慧创新理念融合大数据与云计算,以智能管道与聚合平台为基础,提升数据流量规模、层次及内涵,在大数据流中提升知识价值洞察力。积极创造大数据公司技术融合平台,寻找数据洪流大潮中新的立足点,特别是在数据挖掘、人工智能、机器学习等新技术的创新应用融合创新。

4 结束语

大数据是信息化时代的“石油”。大数据转化为信息和知识的速度与能力将成为这个时代的核心竞争力之一,而大数据面临的安全挑战却不容忽视。只有大数据技术和大数据安全“两条腿”走路时,大数据才可以真正成为这个时代的驱动力量。

参考文献

[1]孟小峰,慈祥.大数据管理:概念、技术与挑战[J].计算机研究与发展,2013,50(1): 146-169.

[2]陈明奇,姜禾.大数据时代的美国信息网络安全新战略分析[J].信息网络安全.2012(8):32—35.

[3]王珊,王会举,覃雄派,周烜.架构大数据:挑战、现状与展望[J].计算机学报,2011,34(10):1741-1752.

[4]肖新斌,史召臣.云计算引发的安全风险[J].信息安全与技术.2011(6):13—14.

[5]胡光永.基于云计算的数据安全存储策略研究[J] .计算机测量与控制,2011,19(10)2539-2541.

数据中心信息安全管理及管控要求

数据中心信息安全管理及管控要求 2012-02-24 11:29博客康楠 随着在世界范围内,信息化水平的不断发展,数据中心的信息安全逐渐成为人们关注的焦点,世界范围内的各个机构、组织、个人都在探寻如何保障信息安全的问题。英国、美国、挪威、瑞典、芬兰、澳大利亚等国均制定了有关信息安全的本国标准,国际标准化组织(ISO)也发布了ISO17799、ISO13335、ISO15408等与信息安全相关的国际标准及技术报告。目前,在信息安全管理方面,英国标准ISO27000:2005已经成为世界上应用最广泛与典型的信息安全管理标准,它是在BSI/DISC的BDD/2信息安全管理委员会指导下制定完成。 ISO27001标准于1993年由英国贸易工业部立项,于1995年英国首次出版BS 7799-1:1995《信息安全管理实施细则》,它提供了一套综合的、由信息安全最佳惯例组成的实施规则,其目的是作为确定工商业信息系统在大多数情况所需控制范围的唯一参考基准,并且适用于大、中、小组织。1998年英国公布标准的第二部分《信息安全管理体系规范》,它规定信息安全管理体系要求与信息安全控制要求,它是一个组织的全面或部分信息安全管理体系评估的基础,它可以作为一个正式认证方案的根据。ISO27000-1与ISO27000-2经过修订于1999年重新予以发布,1999版考虑了信息处理技术,尤其是在网络和通信领域应用的近期发展,同时还非常强调了商务涉及的信息安全及信息安全的责任。2000年12月, ISO27000-1:1999《信息安全管理实施细则》通过了国际标准化组织ISO的认可,正式成为国际标准ISO/IEC17799-1:2000《信息技术-信息安全管理实施细则》。2002年9月5日,ISO27000-2:2002草案经过广泛的讨论之后,终于发布成为正式标准,同时ISO27000-2:1999被废止。现在,ISO27000:2005标准已得到了很多国家的认可,是国际上具有代表性的信息安全管理体系标准。许多国家的政府机构、银行、证券、保险公司、电信运营商、网络公司及许多跨国公司已采用了此标准对信息安全进行系统的管理,数据中心(IDC)应逐步建立并完善标准化的信息安全管理体系。 一、数据中心信息安全管理总体要求 1、信息安全管理架构与人员能力要求 1.1信息安全管理架构 IDC在当前管理组织架构基础上,建立信息安全管理委员会,涵盖信息安全管理、应急响应、审计、技术实施等不同职责,并保证职责清晰与分离,并形成文件。 1.2人员能力 具备标准化信息安全管理体系内部审核员、CISP(Certified Information Security Professional,国家注册信息安全专家)等相关资质人员。5星级IDC至少应具备一名合格的标准化信息安全管理内部审核员、一名标准化主任审核员。4星级IDC至少应至少具备一名合格的标准化信息安全管理内部审核员 2、信息安全管理体系文件要求,根据IDC业务目标与当前实际情况,建立完善而分层次的IDC信息安全管理体系及相应的文档,包含但不限于如下方面: 2.1信息安全管理体系方针文件

大数据时代的信息安全试题答案

单选题 1.信息主权领域范围不受地域边界影响,而根据信息传播的深度和广度动态变化。()(分数:10分) 标准答案:A 学员答案:A A.正确 B.错误 2.在经济转型和服务业大力发展的背景下,我国中小企业在数量、创造GDP、拉动就业方面的占比均已超过70%。()(分数:10分) 标准答案:B 学员答案:B A.正确 B.错误 3.美国拓展信息主权的主要措施不包括()(分数:10分) 标准答案:B 学员答案:B A.国家战略 B.信息掌控和垄断 C.产业体系 D.基础设施 4.大数据核心价值是()(分数:10分) 标准答案:A 学员答案:A A.海量数据存储、分析 B.数据增长迅速 C.表现形式多样化 D.具有极高的信息价值 5.云计算是对()技术的发展与运用(分数:10分) 标准答案:D 学员答案:D A.并行计算 B.网格计算 C.分布式计算 D.三个选项都是 6.云计算体系结构的()负责资源管理、任务管理用户管理和安全管理等工作(分数:10分) 标准答案:C 学员答案:C A.物理资源层 B.物理资源层

C.管理中间件层 构建层 7.大数据区别于传统数据的特征有()(分数:10分) 标准答案:ABCD 学员答案:C A.海量数据存储 B.数据增长迅速 C.表现形式多样化 D.具有极高的信息价值 8.大数据应用需依托的新技术有()(分数:10分) 标准答案:D 学员答案:D A.大规模存储与计算 B.数据分析处理 C.智能化 D.三个选项都是 9.以下不属于影响国家信息主权的关键因素的有()(分数:10分) 标准答案:B 学员答案:B A.信息资源 B.信息容量 C.信息产业 D.基础设施 10.百度拥有完整、自主的大数据核心技术。()(分数:10分) 标准答案:A 学员答案:A A.正确 B.错误 一.单选题 1.大数据应用需依托哪些新技术()(分数:10分) 标准答案:D 学员答案:D A.大规模存储与计算 B.数据分析处理 C.智能化 D.以上都有

数据中心安全规划方案

XX数据中心信息系统安全建设项目 技术方案

目录1.项目概述4 1.1.目标与范围4 1.2.参照标准4 1.3.系统描述4 2.安全风险分析5 2.1.系统脆弱性分析5 2.2.安全威胁分析5 2.2.1.被动攻击产生的威胁5 2.2.2.主动攻击产生的威胁5 3.安全需求分析7 3.1.等级保护要求分析7 3.1.1.网络安全7 3.1.2.主机安全8 3.1.3.应用安全9 3.2.安全需求总结9 4.整体安全设计10 4.1.安全域10 4.1.1.安全域划分原则10 4.1.2.安全域划分设计11 4.2.安全设备部署12 5.详细安全设计13 5.1.网络安全设计13 5.1.1.抗DOS设备13 5.1.2.防火墙14 5.1.3.WEB应用安全网关15 5.1.4.入侵防御16

5.1.5.入侵检测17 5.1. 6.安全审计18 5.1.7.防病毒18 5.2.安全运维管理19 5.2.1.漏洞扫描19 5.2.2.安全管理平台19 5.2.3.堡垒机21 6.产品列表21

1.项目概述 1.1.目标与范围 本次数据中心的安全建设主要依据《信息安全技术信息安全等级保护基本要求》中的技术部分,从网络安全,主机安全,应用安全,来对网络与服务器进行设计。根据用户需求,在本次建设完毕后XX数据中心网络将达到等保三级的技术要求。 因用户网络为新建网络,所以本次建设将完全按照《信息安全技术信息安全等级保护基本要求》中技术部分要求进行。 1.2.参照标准 GB/T22239-2008《信息安全技术信息安全等级保护基本要求》 GB/T 22239-2008《信息安全技术信息安全等级保护基本要求》 GB/T 22240-2008《信息安全技术信息系统安全等级保护定级指南》 GB/T 20270-2006《信息安全技术网络基础安全技术要求》 GB/T 25058-2010《信息安全技术信息系统安全等级保护实施指南》 GB/T 20271-2006《信息安全技术信息系统安全通用技术要求》 GB/T 25070-2010《信息安全技术信息系统等级保护安全设计技术要求》 GB 17859-1999《计算机信息系统安全保护等级划分准则》 GB/Z 20986-2007《信息安全技术信息安全事件分类分级指南》 1.3.系统描述 XX数据中心平台共有三个信息系统:能源应用,环保应用,市节能减排应用。 企业节点通过企业信息前置机抓取企业节点数据,并把这些数据上传到XX 数据中心的数据库中,数据库对这些企业数据进行汇总与分析,同时企业节点也可以通过VPN去访问XX数据中心的相关应用。

大数据环境下的企业管理

题目:大数据环境下的企业管理问题 作者:唐梦梦 摘要:大数据时代的来临,影响着企业的运营与商业模式,企业管理必然也要与之相匹配,才能促进企业的发展与壮大。本文主要分析了大数据的特点,大数据对企业管理的影响,讨论了在大数据的影响下,企业如何进行管理决策和利用大数据应该注意的事项。利用统计学,数据库,EXCEL和数据挖掘等知识和数学方法得出以下指标及结论。从企业的产品销售情况可以得出哪些产品要淘汰,哪些产品要更新。从各个品牌的广告投放来获得有用的信息,了解对手的广告投放。方便企业花最少的成本,获取更多的利益。因此,大数据的时代,企业可以利用大数据,对数据“清洗”、挖掘,并进行深度提炼、分析最后形成决策,进行管理决策。但是同时也要注意,合理利用大数据,不要神话大数据,要结合管理经验和数据进行共同决策管理。企业大引入大数据的时候要切合实际。 正文:第一章大数据时代的特点 视频、音频、图像、数字的等多种交互方式的丰富,让我们已经进入了数据信息爆炸的阶段。一些国外的调研机构认为:未来10年之内,全球的数据和内容将增加44倍,大数据的时代来了。要想弄清楚大数据如何影响企业,那么就需要先弄清楚大数据的概念。大数据的概念建立在数据库的基础之上,就传统的数据库来说,数据库的基本单位是以MB为单位的,但是大数据却是以GB甚至是TB为单位的,那么可以把大数据简单地理解为数据库的集成,这种定义是根据大数据在容量上的特点来定义的,但是实际上来看,大数据并不仅仅只有“大”这一个特点,规模性、多样性、高速性和价值性是目前学术界普遍认同的大数据所具有的特点,根据这种观点,我们可以对大数据进行一个宽泛的定义,大数据是一种具有多样性,高速性,规模性以及价值性的数据库集成。大数据的多样性表现为,大数据的种类不仅仅是某一个特定的单位数据,而是由多种类型的数据共同组成的,这些数据的类型不仅仅包括传统的数据库所产生的数据,还包含着结构化、半结构化以及非结构化的数据形态,随着大数据时代的特征增强,这种传统数据所占的比重在不断地下降,取而代之的是其他种类的数据,那么这种特性就决定了对于大数据的处理不能用传统的方式。 在大数据时代,要将数据作为一种资源辅助解决其他诸多领域的问题;数据库处理数据,仅用一种或少数几种工具就可以处理,而大数据不可能有一种或少数几种工具来处理数据,需要采取新的数据思维来应对。 第二章大数据对企业管理的影响 1. 大数据推动企业管理变革 当企业的某项资产非常重要,数量巨大时,就需要有效管理。如今,数据已经成为这种资产。以前人们还不会将它看做是资产,而是一种附属物。客户来办理业务,在系统中产生了这种附属物。而现在,发现在客户办理业务这条信息中,蕴含这一些客户的需求,成千上万条这类信息累积下来,就能洞察客户所需,为设计新产品,为客户个性化营销产生新的价值。数据变成一种资产了,需要被管理起来。大数据将从数据资产化和决策智能化两个方面推动企业管理变革。

2018年大数据时代的互联网信息安全试题和答案解析

2018年度大数据时代的互联网信息安全 1.我们经常从网站上下载文件、软件,为了确保系统安全,以下哪个处理措施最正确。(B )(单选题2分) A.直接打开或使用 B.先查杀病毒,再使用 C.习惯于下载完成自动安装 D.下载之后先做操作系统备份,如有异常恢复系统 2.使用微信时可能存在安全隐患的行为是?(A )(单选题2分) A.允许“回复陌生人自动添加为朋友” B.取消“允许陌生人查看10张照片”功能 C.设置微信独立帐号和密码,不共用其他帐号和密码 D.安装防病毒软件,从官方网站下载正版微信 3.日常上网过程中,下列选项,存在安全风险的行为是?(B )(单选题2分) A.将电脑开机密码设置成复杂的15位强密码 B.安装盗版的操作系统 C.在QQ聊天过程中不点击任何不明链接 D.避免在不同网站使用相同的用户名和口令 4.我国计算机信息系统实行(B )保护。(单选题2分) A.主任值班制 B.安全等级 C.责任制 D.专职人员资格 5.重要数据要及时进行(C ),以防出现意外情况导致数据丢失。(单选题2分) A.杀毒 B.加密 C.备份 D.格式化 6.小强接到电话,对方称他的快递没有及时领取,请联系XXXX电话,小强拨打该电话后提供自己的私人信息后,对方告知小强并没有快递。过了一个月之后,小强的多个账号都无法登录。在这个事件当中,请问小强最有可能遇到了什么情况?(B )(单选题2分) A.快递信息错误而已,小强网站账号丢失与快递这件事情无关 B.小强遭到了社会工程学诈骗,得到小强的信息从而反推出各种网站的账号密码 C.小强遭到了电话诈骗,想欺骗小强财产 D.小强的多个网站账号使用了弱口令,所以被盗。 7.没有自拍,也没有视频聊天,但电脑摄像头的灯总是亮着,这是什么原因(A )(单选题2分) A.可能中了木马,正在被黑客偷窥 B.电脑坏了 C.本来就该亮着 D.摄像头坏了 8.刘同学喜欢玩网络游戏。某天他正玩游戏,突然弹出一个窗口,提示:特大优惠!1元可购买10000元游戏币!点击链接后,在此网站输入银行卡账号和密码,网上支付后发现自己银行卡里的钱都没了。结合本实例,对发生问题的原因描述正确的是?(C )(单选题2分)A.电脑被植入木马

大数据环境下的数据迁移技术研究_王刚

Microcomputer Applications Vol. 30, No.5, 2013 研究与设计 微型电脑应用 2013年第30卷第5期 ?1? 文章编号:1007-757X(2013)05-0001-03 大数据环境下的数据迁移技术研究 王 刚,王 冬,李 文,李光亚 摘 要:数据是信息系统运行的基础和核心,是机构稳定发展的宝贵资源。随着信息系统数据量成几何级数增加,特别是在当前大数据环境和信息技术快速发展情况下,海量数据迁移是企业解决存储空间不足、新老系统切换和信息系统升级改造等过程中必须面对的一个现实问题。如何在业务约束条件下,快速、正确、完整地实现海量数据迁移,保障数据的完整性、一致性和继承性,是一个关键研究课题。从海量数据管理的角度,阐述了海量数据迁移方法,比较了不同数据迁移的方案特点。 关键词:大数据;数据迁移;存储 中图分类号:TP391 文献标志码:A Data Migration Technology Research Based on Big Data Environment Wang Gang 1, Wang Dong 2, Li Wen 3, Li Guangya 2 (https://www.wendangku.net/doc/5f14203287.html,rmation Center of Shanghai Municipal Human Resources and Social Security, Shanghai200051, China; 2. Wonders Information Co., Ltd., Shanghai201112, China; 3. Shanghai Institute of Foreign Trade, Shanghai201600, China) Abstract: The data is the core resource of the information system, it is the basis of the enterprise, With the continuous of business, a geometric increase in the amount of data generated by the information system, especially in the case of current data environment and information technology. The massive data migration is a real problem. With the business constraints, the massive data migration is a key research topic, in this paper, from the point of view of the massive data management, elaborated a massive data migration me-thod, and compare the characteristics of different data migration program. Key words: Big Data; Data Migration; Storage 0 引言 数据一直是信息系统的基础和核心。一方面,随着企业业务的发展,信息系统覆盖面的扩大,管理和服务精细化层度的深入,集中式的管理信息系统正在不断应运而生,各行各业都先后出现了规模庞大的数据中心。这些数据中心经过一段时间的运行,其数据量正成几何级增长,有的甚至可以达到TB 级或PB 级。另一方面,新的技术架构和业务操作对性能指标提出了更高的要求,而这些要求往往需要通过软件升级或者硬件更新的方式来实现,因而在新老系统的切换或升级改造过程中,势必会面临一个现实问题――数据迁 移。吕帅[1] 等人从分级存储管理的角度提出了混合存储环境下的数据价值评估模型和迁移过程控制理论,提出了数据价 值的精确判定。徐燕[2] 等人利用编程基础实现了异构数据库系统间的数据迁移,提出了数据迁移的抽取、转换和载入3个过程。李喆[3]等从项目管理和方法论角度描述了企业级数据迁移的过程。张玺[4]针对数据从磁盘到磁带的数据迁移问题,提出了并行文件处理方式。丛慧刚[5]等人,从元数据角度,提出了数据迁移中元数据对映射模式体系,对采用源数据驱动ETL 引擎进行功能实现。这些研究都是根据具体工程中数据迁移这个关键问题进行了研究,但是随着信息技术 的发展,针对数据迁移整体管理缺少研究。本文结合某特大 型城市社会保险信息系统管理过程中大数据环境下,海量数据迁移问题进行整体分析,对可能需要大数据迁移的驱动因素和在数据迁移过程中需要关注的各类风险点进行了汇总分析,根据这些风险对数据迁移的各类方案进行分析、研究和论述,最后针对实际工作给出了实际应用。 1 数据迁移驱动分析 1) 新老系统切换需要:数据作为企业的核心资源,是 企业业务连续和发展的基础,因此当信息系统更新或者新老系统切换时,需要对老系统的数据进行整理,抽取,并按照新系统的业务逻辑和数据规则进行迁移,以保障业务的连续性。 2) 搬迁或数据中心合并需求:很多政府政策上的指导 引发了组织结构的变化以及数据分布的改变。一个非常有名的例子是美国的金融监管法案 (Ring-Fencing Senario),这个法案要求所有的银行把数据通过几个步骤和高危投资业务进行隔离。而这些步骤会涉及大量的结构性数据(数据库)和非结构性数据(金融交易的图像存档)的迁移。 3) 性能提升需求:由于业务的发展,企业规模的变大, —————————————— 基金项目:核高基重大专项课题(2009ZX01043-003-004-05);上海市教委科研创新项目(11YS205)和上海市高校“085工程”项目资助。 作者简介:王 刚(1974-)男,上海市,上海市人力资源和社会保障信息中心,工程师,本科,研究方向:计算机信息系统集成和安全管理,上海, 200051 王 冬(1972-)男,上海市,万达信息股份有限公司,工程师,硕士,研究方向:信息系统软件工程和数据挖掘,上海,200051 李 文(1972-)女,上海市,上海对外贸易学院,副教授,博士,研究方向:计量经济和数据挖掘,上海,200051 李光亚(1973-)男,上海市,万达信息股份有限公司,教授级高工,博士,研究方向:计算机软件、系统集成、信息安全、软件工程等,上海,200051

数据中心信息安全解决方案模板

数据中心信息安全 解决方案

数据中心解决方案 (安全)

目录 第一章信息安全保障系统...................................... 错误!未定义书签。 1.1 系统概述 .................................................... 错误!未定义书签。 1.2 安全标准 .................................................... 错误!未定义书签。 1.3 系统架构 .................................................... 错误!未定义书签。 1.4 系统详细设计 ............................................ 错误!未定义书签。 1.4.1 计算环境安全 ...................................... 错误!未定义书签。 1.4.2 区域边界安全 ...................................... 错误!未定义书签。 1.4.3 通信网络安全 ...................................... 错误!未定义书签。 1.4.4 管理中心安全 ...................................... 错误!未定义书签。 1.5 安全设备及系统......................................... 错误!未定义书签。 1.5.1 VPN加密系统 ...................................... 错误!未定义书签。 1.5.2 入侵防御系统 ...................................... 错误!未定义书签。 1.5.3 防火墙系统 .......................................... 错误!未定义书签。 1.5.4 安全审计系统 ...................................... 错误!未定义书签。 1.5.5 漏洞扫描系统 ...................................... 错误!未定义书签。 1.5.6 网络防病毒系统 .................................. 错误!未定义书签。 1.5.7 PKI/CA身份认证平台 .......................... 错误!未定义书签。 1.5.8 接入认证系统 ...................................... 错误!未定义书签。

基于大数据环境下的数据安全探究

基于大数据环境下的数据安全探究 一、大数据的概念 大数据是互联网技术和云计算技术迅猛发展的产物,指的是无法在规定的时间内使用当前通用的数据管理工具进行收集处理的规模巨大且形式多样化的数据信息。大数据的研究如今已成为国内外学者、政府机构、研究机构广泛关注的前沿科技。其主要来源是人们在使用互联网和各种终端设备所产生和输出的各种文字、图片或者视频、文件等种类繁多的数据信息。 二、大数据环境的特点 通过对大数据概念的研究我们可以看到大数据环境的特点如下:(一)数据量大且呈几何级数增长趋势 大数据时代的来临,各种智能终端、移动设备、传感器以及社交网络每时每刻都有大量的数据产生,并且呈现出几何级数的增长趋势。预计至2020年,全球电子数据将会超过35ZB。 (二)数据形式多种多样 随着信息化技术的发展,大数据中的主流数据由以普通文本为代表的结构化数据逐步演化为自由文本形式存在的非结构化数据。互联网技术的发展改变了传统数据的二维结构,随着手机及各种终端设备应用范围的拓展,网页、图片、音频视频等非结构化数据的发展显得尤为迅速。统计结果显示,非机构化数据在大数据中所占的比例已达百分之八十以上。

(三)价值密度低 对大数据进行分析可以获得大量有价值的信息,可以对生产生活起到一定的指导作用,因为数据来源的不同,获得的数据信息也是复杂多样,因此大数据以成千上万倍的速度增长,这使得大数据的存储和计算分析成本大大提高。同时也导致大数据的统计缺少细化处理,信息的价值含量低。 (四)具有高效的运算速度和运算能力 大数据的运算系统属于一个分布式机构的系统,以海杜普大数据框架为基础,充分发挥集群的效力,来使自身达到高效的运算速度和运算能力。信息数据发掘技术的不断发展以及大量应用程序的开发和使用和搜索引擎的使用推广必然会使大数据提取和分析变得更快更高效。 三、大数据环境下存在的数据安全问题 (一)网络技术的发展普及发展使数据安全面临巨大风险 随着互联网技术的全球推广使用以及无线路由器、服务器等设备技术的发展,网络的日常应用越来越便捷,信息数据的获取也越来越高效,同时不同行业大数据资源共享也变得十分便利。网络的发展给信息资源提供了一个开放的共享平台,在这个平台之上可以对大数据进行快速的整合分析,并且对有效数据进行整理共享。但是安全问题也接踵而至,开放的网络平台随着使用对象的变换,将众多大数据相互关联,使得网络黑客窃取数据信息变得十分容易。一旦数据泄露,数据的价值也将被窃取,并且数据产生者的个人隐私也将受到威胁。 (二)大数据环境下信息的可靠性下降

信息安全服务软件-使用说明书

信息安全服务软件 说明书 1.引言 本软件使用说明书是为了指导信息安全服务软件的使用操作,同时为本软件系统的测试提供必要的信息。 本详细设计说明书的读者都包括以下人员: a. 代码编写人员 b. 测试人员 c. 概要设计人员 d. 其它对信息安全服务软件感兴趣的人员。 2.软件概述 2.1目标 安全是一个动态的过程,在信息系统运行维护期间可能遭遇来自各方面的安全威胁。为保证信息系统运营使用单位网络及应用服务的持续正常运行,信息安全服务软件依靠有关信息安全事件相关标准,通过提供网络安全保障服务来加强信息系统运营使用单位的网络安全性,通过定期和不定期的安全扫描服务、安全巡检服务、安全预警服务以及周到的突发应急响应服务将安全工作落到实处,以有效提高信息系统运营使用单位的网络安全保障能力。 ?增强技术设施抵抗非法攻击的能力; ?集中精力维护信息系统的持续可用; ?提高技术人员对信息安全的认识; ?快速发现企业的信息安全漏洞,通过有效的防护方法,提升信息安全水平;

?加强信息基础设施的安全水平,降低安全风险; ?维持企业形象、赢取客户信任。 2.2功能特点 该系统具有以下几个功能特点: (1)本软件系统的开发采用了C/S结构,技术成熟,使得该系统具有高可靠性、较强的拓展性和维护性; (2)该系统支持并发用户数较多。响应时间仅在2s左右,具有良好的实用性和出众的性价比。 (3)同时本软件在预检结果的准确度方面也具有很高的可信性。开发人员在网络安全、数据传输安全、数据访问安全和数据存储安全等几个方面做了大量努力,使得系统安全性极高; 3.运行环境 3.1硬件环境 服务器端:CPU以Intel的型号为准,可以采用AMD相同档次的对应型号,内存基本配置4G 客户端:CPU为Core i3-2100 3.10GHz(标准配置),内存为4 GB(标准配置),磁盘存储为500 GB(标准配置)。 3.2软件环境 所需软件环境如下: 操作系统为:windows xp,windows2003,vista等。推荐windows xp。

大数据环境下的数据安全研究

大数据环境下的数据安全研究 摘要:大数据蕴藏着价值信息,但数据安全面临严峻挑战。本文在分析大数据基本特征的基础上,提出了当前大数据面临的安全挑战,并从大数据的存储、应用和管理等方面阐述了大数据安全的应对策略。 关键词:大数据;数据安全;云计算;数据挖掘 Abstract:The Big Data contain Valuable information,However, data security is facing serious challenges。based on the analysis of the basic characteristics of the Big Data,The paper propose the current risk of Big Data,and further from the Big Data’s storage, application and management expounds the Big Data Security strategy. Key words:Big Data;Data security;Cloud Computing;Data Mining 0引言 随着互联网、物联网、云计算等技术的快速发展,以及智能终端、网络社会、数字地球等信息体的普及和建设,全球数据量出现爆炸式增长,仅在2011年就达到1.8万亿GB。IDC 预计,到2020年全球数据量将增加50倍。毋庸臵疑,大数据时代已经到来。一方面,云计算为这些海量的、多样化的数据提供存储和运算平台,同时数据挖掘和人工智能从大数据中发现知识、规律和趋势,为决策提供信息参考。但是,大数据的发展将进一步扩大信息的开放程度,随之而来的隐私数据或敏感信息的泄露事件时有发生。面对大数据发展的新特点、新挑战,如何保障数据安全是我们需要研究的课题。 1 大数据的特征 大数据通常被认为是一种数据量很大、数据形式多样化的非结构化数据。随着对大数据研究的进一步深入,大数据不仅指数据本身的规模,也包括数据采集工具、数据存储平台、数据分析系统和数据衍生价值等要素。其主要特点有以下几点: 1.1数据量大 大数据时代,各种传感器、移动设备、智能终端和网络社会等无时不刻都在产生数据,数量级别已经突破TB,发展至PB乃至ZB,统计数据量呈千倍级别上升。据估计,2012年全球产生的数据量将达到2.7ZB,2015年将超过8ZB[1]。 1.2类型多样 当前大数据不仅仅是数据量的井喷性增长,而且还包含着数据类型的多样化发展。以往数据大都以二维结构呈现,但随着互联网、多媒体等技术的快速发展和普及,视频、音频、图片、邮件、HTML、RFID、GPS和传感器等产生的非结构化数据,每年都以60%速度增长。预计,非结构化数据将占数据总量的80%以上[1]。 1.3运算高效 基于云计算的Hadoop大数据框架,利用集群的威力高速运算和存储,实现了一个分布式运行系统,以流的形式提供高传输率来访问数据,适应了大数据的应用程序。而且,数据挖掘、语义引擎、可视化分析等技术的发展,可从海量的数据中深度解析,提取信息,掌控数据增值的“加速器”。 1.4产生价值 价值是大数据的终极目的。大数据本身是一个“金矿产”,可以从大数据的融合中获得意想不到的有价值的信息。特别是激烈竞争的商业领域,数据正成为企业的新型资产,追求数据最大价值化。同时,大数据价值也存在密度低的特性,需要对海量的数据进行挖掘分析

大数据时代的信息安全问题

信息安全导论论文《大数据时代的信息安全问题》 作者:李佳倩 学号:2014301500243 院系:计算机学院 班级:14级8班 指导老师:王骞 2015/1/24

大数据时代的信息安全问题 中文摘要 大数据(Big Data)是当前学术界和产业界的研究热点,正影响着人们日常生活方式、工作习惯及思考模式。但目前,大数据在收集、存储和使用过程中面临着诸多安全风险,大数据所导致的隐私泄露为用户带来严重困扰,虚假数据将导致错误或无效的大数据分析结果。该文分析了大数据时代的产生原因、发展概述、主要特征及大数据信息安全研究现状,并针对现有的安全问题提出了解决方案。 (本文编者:山东正舟信息 https://www.wendangku.net/doc/5f14203287.html, 山东正舟信息技术有限公司内部文案) 关键词:大数据;大数据时代;大数据信息安全 Abstract Nowadays big data has become a hot topic in both the academic and the industrial research.It is regarded as a revolution that will transform how we live,work and think.However,there are many security risks in the field of data security and privacy protection when collecting,storing and utilizing big data.Privacy issues related with big data analysis spell trouble for individuals.And deceptive or fake information within big data may lead to incorrect analysis results.This paper analyzes the causes of the era of big data, development overview, main characteristics and the present situation of big data information security research, and put forward the solution in view of the existing safety problems. Key words: Big data;Big data era;The information security of big data era

数据中心信息安全法规办法

数据中心信息安全法规办法 为加强数据中心的数据安全和保密管理,保障数据中心的数据安全,现依据国家有关法律法规和政策,针对当前安全保密管理工作中可能存在的问题和薄弱环节,制定本办法。 一、按照“谁主管谁负责、谁运行谁负责”的原则,各部门在其职责范围内,负责本单位计算机信息系统的安全和保密管理。 二、各单位应当明确一名主要领导负责计算机信息系统安全和保密工作,指定一个工作机构具体负责计算机信息系统安全和保密综合管理。各部门内设机构应当指定一名信息安全保密员。 三、要加强对与互联网联接的信息网络的管理,采取有效措施,防止违规接入,防范外部攻击,并留存互联网访问日志。 四、计算机的使用管理应当符合下列要求: 1.对计算机及软件安装情况进行登记备案,定期核查; 2.设置开机口令,长度不得少于8个字符,并定期更换,防止口令被盗; 3.安装防病毒等安全防护软件,并及时进行升级;及时更新操作系统补丁程序; 4.不得安装、运行、使用与工作无关的软件; 5.严禁同一计算机既上互联网又处理涉密信息; 6.严禁使用含有无线网卡、无线鼠标、无线键盘等具有无线互联功能的设备处理涉密信息; 7.严禁将涉密计算机带到与工作无关的场所。

五、移动存储设备的使用管理应当符合下列要求: 1.实行登记管理; 2.移动存储设备不得在涉密信息系统和非涉密信息系统间交叉使用,涉密移动存储设备不得在非涉密信息系统中使用; 3.移动存储设备在接入本单位计算机信息系统之前,应当查杀病毒、木马等恶意代码; 4.鼓励采用密码技术等对移动存储设备中的信息进行保护; 5.严禁将涉密存储设备带到与工作无关的场所。 六、数据复制操作管理应当符合下列要求: 1.将互联网上的信息复制到处理内部信息的系统时,应当采取严格的技术防护措施,查杀病毒、木马等恶意代码,严防病毒等传播; 2.严格限制从互联网向涉密信息系统复制数据。确需复制的,应当严格按照国家有关保密标准执行; 3.不得使用移动存储设备从涉密计算机向非涉密计算机复制数据。确需复制的,应当采取严格的保密措施,防止泄密; 4.复制和传递涉密电子文档,应当严格按照复制和传递同等密级纸质文件的有关规定办理。 七、处理内部信息的计算机及相关设备在变更用途时,应当使用能够有效删除数据的工具删除存储部件中的内部信息。 八、涉密计算机及相关设备不再用于处理涉密信息或不再使用时,应当将涉密信息存储部件拆除或及时销毁。涉密信息存储部件的销毁必须按照涉密载体销毁要求进行。 九、加强对计算机使用人员的管理,开展经常性的保密教育

互联网+环境保护监管监测大数据平台整体解决方案

互联网+环境保护 监管监测大数据平台整体 解 决 方 案

目录 1概述 (14) 1.1项目简介 (14) 1.1.1项目背景 (14) 1.2建设目标 (15) 1.2.1业务协同化 (16) 1.2.2监控一体化 (16) 1.2.3资源共享化 (16) 1.2.4决策智能化 (16) 1.2.5信息透明化 (17) 2环境保护监管监测大数据一体化管理平台 (18) 2.1环境保护监管监测大数据一体化平台结构图 (18) 2.2环境保护监管监测大数据一体化管理平台架构图20 2.3环境保护监管监测大数据一体化管理平台解决方案(3721解决方案) (20) 2.3.1一张图:“天空地”一体化地理信息平台 .. 21

2.3.2两个中心 (30) 2.3.3三个体系 (32) 2.3.4七大平台 (32) ?高空视频及热红外管理系统 (44) ?激光雷达监测管理系统 (44) ?车载走航管理系统 (44) ?网格化环境监管系统 (45) ?机动车尾气排放监测 (45) ?扬尘在线监测系统 (45) ?餐饮油烟在线监测系统 (46) ?水环境承载力评价系统 (46) ?水质生态监测管理系统 (47) ?湖泊生态管理系统 (47) ?水生态管理系统 (48) ?排污申报与排污费管理系统 (49) ?排污许可证管理系统 (49) ?建设项目审批系统 (49)

3环境保护监管监测大数据一体化管理平台功能特点 (51) 3.1管理平台业务特点 (51) 3.1.1开启一证式管理,创新工作模式 (51) 3.1.2拓展数据应用,优化决策管理 (51) 3.1.3增强预警预报、提速应急防控 (52) 3.1.4完善信息公开、服务公众参与 (53) 3.2管理平台技术特点 (54) 3.2.1技术新 (54) 3.2.2规范高 (55) 3.2.3分析透 (55) 3.2.4功能实 (56) 1、污染源企业一源一档 (59) 3.2.5检索平台 (61) 3.2.6消息中心 (62) 3.3管理平台功能 (62) 3.3.1环境质量监测 (63) 3.3.2动态数据热力图 (64)

大数据与信息安全

大数据对信息安全带来的技术和挑战 周恩来政府管理学院政治学与行政学宋梓林1312756 1.大数据时代 最早提出“大数据”时代已经到来的机构是全球知名咨询公司麦肯锡。麦肯锡在研究报告中指出,数据已经渗透到每一个行业和业务职能领域,逐渐成为重要的生产因素;而人们对于直面大数据对信息安全的挑战。 对于“大数据”(Big data)研究机构Gartner给出了这样的定义。“大数据”是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据技术的战略意义不在于掌握庞大的数据信息,而在于对这些含有意义的数据进行专业化处理。换言之,如果把大数据比作一种产业,那么这种产业实现盈利的关键,在于提高对数据的“加工能力”,通过“加工”实现数据的“增值”。 从技术上看,大数据与云计算的关系就像一枚硬币的正反面一样密不可分。大数据必然无法用单台的计算机进行处理,必须采用分布式架构。它的特色在于对海量数据进行分布式数据挖掘(SaaS),但它必须依托云计算的分布式处理、分布式数据库(PaaS)和云存储、虚拟化技术(IaaS)。 大数据可分成大数据技术、大数据工程、大数据科学和大数据应用等领域。目前人们谈论最多的是大数据技术和大数据应用。工程和科学问题尚未被重视。大数据工程指大数据的规划建设运营管理的系统工程;大数据科学关注大数据网络发展和运营过程中发现和验证大数据的规律及其与自然和社会活动之间的关系。 物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。有些例子包括网络日志,RFID,传感器网络,社会网络,社会数据(由于数据革命的社会),互联网文本和文件,互联网搜索索引,呼叫详细记录,天文学,大气科学,基因组学,生物地球化学,生物,和其他复杂或跨学科的科研,军事侦察,医疗记录,摄影档案馆,视频档案和大规模的电子商务。 随着云时代的来临,大数据(Big data)也吸引了越来越多的关注。《著云台》的分析师团队认为,大数据(Big data)通常用来形容一个公司创造的大量非结构化数据和半结构化数据,这些数据在下载到关系型数据库用于分析时会花费过多时间和金钱。大数据分析常和云计算联系到一起,因为实时的大型数据集分析需要像MapReduce一样的框架来向数十、数百或甚至数千的电脑分配工作。 大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理(MPP)数据库、数据挖掘电网、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。 2.大数据技术给信息安全带来的技术支持 信息安全是指信息系统(包括硬件、软件、数据、人、物理环境及其基础设施)受到保护,不受偶然的或者恶意的原因而遭到破坏、更改、泄露,系统连续可靠正常地运行,信息服务不中断,最终实现业务连续性。信息安全主要包括以下五方面的内容,即需保证信息的保密性、真实性、完整性、未授权拷贝和所寄生系统的安全性。 信息作为一种资源,它的普遍性、共享性、增值性、可处理性和多效用性,使其对于人类具有特别重要的意义。信息安全的实质就是要保护信息系统或信息网络中的信息资源免受各种类型的威胁、干扰和破坏,即保证信息的安全性。根据国际标准化组织的定义,信息安全性的含义主要是指信息的完整性、可用性、保密性和可靠性。信息安全是任何国家、政府、部门、行业都必须十分重视的问题,是一个不容忽视的国家安全战略。但是,对于不同的部门和行业来说,其对信息安全的要求和重点却是有区别的。 信息安全其根本目的就是使内部信息不受内部、外部、自然等因素的威胁。为保障信息

大数据环境下的数据质量管理策略

大数据环境下的数据质量管理策略 信息时代,数据已经慢慢成为一种资产,数据质量成为决定资产优劣的一个重要方面。随着大数据的发展,越来越丰富的数据给数据质量的提升带来了新的挑战和困难。提出一 种数据质量策略,从建立数据质量评价体系、落实质量信息的采集分析与监控、建立持续 改进的工作机制和完善元数据管理4个方面,多方位优化改进,最终形成一套完善的质量 管理体系,为信息系统提供高质量的数据支持。 1信息系统数据质量 信息由数据构成,数据是信息的基础,数据已经成为一种重要资源。对于企业而言, 进行市场情报调研、客户关系维护、财务报表展现、战略决策支持等,都需要信息系统进 行数据的搜集、分析、知识发现,为决策者提供充足且准确的情报和资料。对于政府而言,进行社会管理和公共服务,影响面更为宽广和深远,政策和服务能否满足社会需要,是否 高效地使用了公共资源,都需要数据提供支持和保障,因而对数据的需求显得更为迫切, 对数据质量的要求也更为苛刻。 作为信息系统的重要构成部分,数据质量问题是影响信息系统运行的关键因素,直接 关系到信息系统建设的成败。根据“垃圾进,垃圾出(garbagein,garbageout)”的原理,为了使信息系统建设取得预期效果,达到数据决策的目标,就要求信息系统提供的数据是可靠的,能够准确反应客观事实。如果数据质量得不到保证,即 使数据分析工具再先进,模型再合理,算法再优良,在充满“垃圾”的数据环境中也只能

得到毫无意义的垃圾信息,系统运行的结果、作出的分析就可能是错误的,甚至影响到后续决策的制定和实行。高质量的数据来源于数据收集,是数据设计以及数据分析、评估、修正等环节的强力保证。因此,信息系统数据质量管理尤为重要,这就需要建立一个有效的数据质量管理体系,尽可能全面发现数据存在的问题并分析原因,以推动数据质量的持续改进。 2大数据环境下数据质量管理面临的挑战 随着三网融合、移动互联网、云计算、物联网的快速发展,数据的生产者、生产环节都在急速攀升,随之快速产生的数据呈指数级增长。在信息和网络技术飞速发展的今天,越来越多的企业业务和社会活动实现了数字化。全球最大的零售商沃尔玛,每天通过分布在世界各地的6000多家商店向全球客户销售超过2.67亿件商品,每小时获得2.5PB的交易数据。而物联网下的传感数据也慢慢发展成了大数据的主要来源之一。有研究估计,2015年全球数据量为8ZB,而到2020年则高达35.2ZB,是2015年数据量的44倍之多。此外,随着移动互联网、Web2.0技术和电子商务技术的飞速发展,大量的多媒体内容在指数增长的数据量中发挥着重要作用。 大数据时代下的数据与传统数据呈现出了重大差别,直接影响到数据在流转环节中的各个方面,给数据存储处理分析性能、数据质量保障都带来了很大挑战。大数据与传统数据对比如表1所示。 由于以上特性,大数据的信息系统更容易产生数据质量问题:

相关文档