文档库 最新最全的文档下载
当前位置:文档库 › 大数据技术的伦理问题

大数据技术的伦理问题

大数据技术的伦理问题
大数据技术的伦理问题

大数据技术的伦理问题

邱仁宗1,2 黄 雯2 翟晓梅

2(1中国社会科学院哲学研究所应用伦理研究中心;

2北京协和医学院人文和社会科学院生命伦理学研究中心)

邱仁宗研究员 摘要:

本文探讨了大数据技术创新、研发和应用中的伦理问题。指出大数据技术是把

双刃剑,这种技术的创新使社会、商业、以及

亿万人受益,但同时也带来风险。我们必须

鉴定风险,平衡创新带来的利益与风险。文

章还探讨了与信息技术及大数据技术有关的

数字身份、隐私、可及、安全和安保、数字鸿沟

等伦理问题,并讨论了解决这些伦理问题的

进路。最后,建议引入伦理治理的概念,指出

大数据的顺利推广应用要求我们制订评价在

大数据方面所采取行动的伦理框架,即伦理原则,为制订行为准则、管理和立法建立一个伦理学基础。

关键词:大数据,数字身份,隐私,可及,安全,安保,数字鸿沟,伦理治理作者简介:邱仁宗,中国社会科学院哲学研究所研究员,北京协和医学院人文和社会科学院教授。研究方向为生命伦理学和高科技伦理学。

目前流行的所谓“大数据”是基于传统的数据库技术,与新的数据储存和处理技术有诸多区别。人们预测到2025年互联网将超过生活在整个地球上的所有人脑的容量。另外输入源和所生成的数据类型随着新技术的产63《科学与社会》(S&S)

 

生而迅速扩展。更重要的是,随着输入源数目以及格式的多样性的增加,数据生成、获取、分析、处理以及输出将呈几何级数增长。全世界90%的数据是最近两年内产生的。这种大数据革命驱动我们在处理复杂事件、捕获在

线数据、

研发更佳产品、提供更佳服务,以及做出更佳决策方面的能力发生巨大的进步。(Rayp

ort 2011,Davies 2012)大数据技术会提出一些我们应该做什么以及我们应该如何做的问题,我们称前者为实质伦理问题,称后者为程序伦理问题。本文试图鉴定这些伦理问题,并提出解决这些问题的进路。

2012年2月16日《纽约时报》报道Targ

et公司有一个分析项目,可通过数据挖掘的方法确定顾客是否怀孕。该公司将购买与妊娠有关物品的优惠券送给了一位少女,少女的父亲得知后非常恼怒,痛骂公司经理。Target公司的做法也引起人们愤怒,因为它泄露了公民的隐私。(Reg

lian 2012,Wolken 

2013)美国国土安全局广泛监控、窃取和收集国内外公民的海量信息。仅每天收集的全世界公民的手机短信信息就近2亿条。2014年1月19日《华盛顿邮报》网站报道,2005年该局将一位来自马来西亚的斯坦福大学女博士生列入禁飞恐怖主义监控名单,使她蒙受不白之冤达9年之久。最近联邦法院裁决,该局应纠正错误,给予女博士生赔偿。

世界财富500强前50名公司曾接受调查,

内容主要包括:公司是否未经顾客同意出卖数据;是否利用有目标的广告;顾客对使用他们的信息有多少限制;公司是否会从其他机构购买数据;数据是与他人分享的还是汇总的等等。调查结果显示:没有一家公司明确地说,出卖过个人数据。反之,超过半数(68%)

的公司说,未经同意不会出卖个人数据。也没有一家公司明确地说不会购买个人数据。反之,有22%公司披露他们购买了第三方提供的数据。但这些公司是否对数据进行了核查,他们购买的数据是否征求过数据所有者的同意而扩散?出卖与购买个人数据是否有道德意义上的区

别?(Davies 

2012)一、平衡大数据技术的受益与风险

与所有技术一样,大数据技术本身无所谓“好”与“坏”,因此它在伦理学

73 第4卷第1期2

014年

上是中性的。然而使用大数据技术的个人、公司有着不同的目的和动机。技术被应用后,会因为使用对象的目的不同而对个人、公司乃至社会产生积极或消极的影响。然而值得注意的是,大数据技术具有一种强制性功能,会

通过产生或处理海量、

多样的数据,改进产品设计、研发、销售和管理行动(个体化的产品和服务),推动公司或机构进一步、更完全地进入个人的生活,并产生更深的影响,甚至改变像身份、隐私等术语的传统意义以及改变

我们的社会、

经济、政治和文化生活。而且,与所有新技术一样,大数据技术也将产生意料之外的风险。

因此,在伦理学上我们要做的第一件事是鉴定大数据技术可能引发的

风险。美国国家科学基金会(NFS

)支持学术界人士成立了“大数据、伦理学与社会理事会”(Council on Big 

data,Ethics and Society),NSF的FenZhao女士指出,

理事会的任务是促进宏观的对话来帮助更多的人了解大数据可能引起的风险,

并在促使执行官和工程师思考改善产品和增加营业收入的同时,

避免涉及隐私以及其他棘手问题的灾难,告诫不要重蹈美国Tuskeg

ee梅毒研究的覆辙。(Novet 2013)那么,可鉴定出哪些风险?根据有限数据重新标识身份(reidentifica-tion

),可能泄露医疗记录、个人习惯、财务状况以及家庭关系这些私密信息,被人利用、假冒、诈骗;许多消费者毫不经意地使用社交媒体或互联网服

务,

无意中允许他人使用信息;根据数据分析掌握某些人犯罪活动模式,预先控制他们的犯罪行为,然而模式是根据过去行为确定的,不能完全决定未来的实际行为(这里也涉及决定论与自由意志、过去与未来关系等哲学问

题);基于先进的数据分析技术,零售商向顾客提供个体化服务,顾客接受这种服务后,零售商进一步提供有目标的商品服务,使人怀疑推动顾客行为的是顾客真正的需求,还是基于数据分析技术的商品和服务;还有大数据分析的结果可能导致基于年龄、性别、族群、健康状况社会背景等的歧视,等等。(Buytendij

k and Heiser 2013)二、大数据技术中的伦理问题

1.数字身份(Digital Identity

)数字身份是在网络空间领域流行的概念,被定义为一组独一无二地描

83《科学与社会》(S&S) 

述一个人(有时指主体subject或实体entity

)的数据,是有关一个人的所有在数字上可得的信息的总和。(Kinderlere et 

al.2012)身份是界定一个人是谁或是什么的一个特征或属性集。身份有社会身

份(同伴、家庭和朋友)、法律身份(出生证、驾驶执照)以及物理身份(DNA、

外观)。数字身份是在线使用的身份,又称“在线身份”(online identity)。当从事在线活动时数字身份代表那个使用者特定的人,能为电子技术手段可及。数据身份会引起一些问题。首先,一个人可有不止一个有效的数据

身份,

其特征可根据情境、应用的目的或所获服务种类而有不同。其次,网络世界中数字身份不是固定而是流动的,它可随时间流逝而变化。因此,数

字身份不是唯一的、

静态的或永久的。还可能有这样的情况,有人使用的是假身份,或者选择匿名。有人界定数字身份为“在在线环境发展起来的,可

通过电子或计算机装置或系统可及、使用、储存、转移或处理的身份。

”(ICBCEM 

2011)数字身份具有重要的商业价值,对一个国家的整个经济至关重要。无论是在其他国家,还是在中国,网民人数每年都以令人惊异的速度增加。1996年我国网民仅有27万,2008年达到2.63亿,2011年达到4.2亿,2013年6月为5.91亿①。这种迅速增长的态势说明个人对网络的迫切需

要,

同时我们也看到利用数字身份的经济在全世界的迅猛发展。从宏观经济视角看,欧洲传统工业从2008年到2011年缩小了3.6%,

但利用数据身份的企业年增长率则为15%(电子经济)和100%(web2.0社区)

。通过数据身份创造的价值可能是非常巨大的,拥有22%的年增长率,到2020年应用个人数据可为欧洲提供3300亿欧元的年经济效益。个人受益更大,消费者所获的价值在2020年将达6700亿欧元。数据身份的总价值可能为欧盟

27国GDP的8%。(BCG 

2012)围绕数字身份存在两个问题。第一,身份盗用(identity 

theft)的事件层出不穷。由于互联网上私人信息的可得性,身份盗用事件迅速上升。

2002年700万美国人的身份被盗用,2012年被盗用身份人数达1200万,

成为美国发展最为迅速的犯罪行为。公共记录搜索引擎和数据库是网络犯罪的元凶。(Kinderlere et al.2012,BCG 2012,Gillies 

2012)第二,在可得数93 第4卷第1期2

014年①中国互联网研究中心,2013年。

据及处理数据能力的几何级数的增长驱动下,数字身份越来越可追溯。

1993年7月5日,美国《纽约人》(The 

New Yorker)杂志发表了一幅漫画,一只在键盘上操作的狗对另一只狗说:“在互联网上谁也不知道你是一只

狗。”(Steiner 

1993)那个时代确实如此,然而在大数据时代人们不仅有可能知道你是一只狗,而且能知道你的品种,喜欢吃的零食,以及在狗展上是否获过奖。这里提出的问题是:大数据技术能够根据你在网络上的数字身份提供的一些信息追溯到你现实生活中的实际身份。技术上有可能做是否在伦理学上都应该做?如果有人利用大数据技术任意去追溯个人的实际身

份,

那么人们就会说,大数据不仅是增长的驱动者,还可能是使用者/消费者的祸害者。如果不加以管理,许多人可能会为了保护自己,提供更多的虚假信息,或者干脆退出在线世界或网络空间。根据有关数字身份的这两个问

题,就提出了保护数字身份和数字身份管理的公共政策问题(ICECOM2011

)。2.隐私(Privacy

)随着个人数据使用的增长,消费者对他们隐私和个人信息的保密的关切也随之增长。隐私是将他人排除在知悉某人的信息或数据的某些方面之外。隐私概念仅适用于有可能发生人际互动关系的领域,在没有人迹的荒

芜小岛,不存在隐私问题。有三种不同形式的隐私:(1)

躯体隐私。指人身体的阴私部位,不能暴露给一般外人;(2)

空间隐私。指与非亲密关系的人保持一定的距离;(3

)信息隐私。指保护和控制与个人有关的信息。有关个人的信息包括:(1

)固有特征。这个人来自何处?他或她是谁?出生日期、性别、国籍等;(2

)获得性特征。这个人的历史,例如地址、医疗记录和购物史;(3

)个人偏好。这个人喜欢什么?包括兴趣、业余爱好、喜欢的品牌和电视节目等。上述信息可联系到有身份标识或可辨识身份的人。

在网络空间,尤其在大数据时代,隐私的丧失很容易发生。当进行交易和注册登记时,个人要提供私人信息,信用卡信息、身份证号码、电话号码、母亲婚前姓名、住址等被公司和公共机构搜集和利用,可能导致隐私的丧失。诈骗和假冒属于因私人信息直接或间接滥用而引起的恶意活动。另外,往往会发生功能潜变(function creep)

的情况,这是指获取信息的原来目的被悄悄地、

不知不觉地扩大到包括未获得参与者知情和自愿的同意。04《科学与社会》(S&S) 

功能潜变不管是在商业上,还是在政府的监控上都有发生。(Zhai and 

Qiu2010

)隐私应该放弃吗?有一种观点(“后隐私运动”)认为,隐私是控制信息

被分享的一种手段,在web 

2.0或大数据时代,隐私已经不能得到合适地保护,应该主动放弃隐私。从义务论来看,隐私是一项基本人权,从后果论来看,隐私的丧失将给数据市场造成严重损失,必须认真保护隐私。个人信息是数据市场的通货。像任何通货一样它必须是稳定的,值得信任的。这是关键所在。虽然消费者关切他们数据的使用,但愿意甚至迫切希望他人分

享他的一些个人信息(

当他们有适当的受益回报时)。当交易和条件合适时,消费者要“花掉”他们的个人数据。对所有利益攸关者的最大挑战是如何确立数据可信的流动。大多数消费者或用户不知道他们的数据如何被利

用,

也不能够主动进行管理和控制,而是希望他们的数字身份得到负责任的和公开的对待。为此企业和公共机构要告诉消费者或用户个人数据如何使

用和保护隐私。确保可持续的数据流动有三个基本要素:(1

)消费者的受益必须超过分享数据需付出的代价;(2)对于数据如何使用必须有透明性;(3

)个人隐私能得到保护。(Kinderlerer 2012,BCG 

2012)3.可及(Access

)网络上信息的可及,对网络信息的审查和滤除,网络的关闭或暂停使用,也会引起许多伦理问题。当前我们利用软件滤除一些网域和内容,使得

如果没有精细制作的规避措施(翻墙软件),人们无法进入或获得这些网域

和内容。互联网的审查和滤除被用来控制或压制信息的发表或可及。小规模的网站审查和滤除指一些公司,屏蔽一些个人使用的网站,限制员工上班进入网络空间,以免影响生产和工作。大规模的则有政府建立大型防火墙避免其公民接触国外的在线可得的信息。国家控制信息可及最著名的例子是我国的金盾工程,例如有时在举行全国性重要会议期间,有些人因无法进入Goog

le查找资料而苦恼。在法国和美国,政府有屏蔽和滤除种族主义和反犹太人的网站的工程。

人们普遍担心危及公共安全、个人生命健康,以及青少年身心健康的信息在网络上肆意泛滥,因此负责的公共机构对网络进行管理,是合理的。但

单位或公共机构的网络管理人员要认识到,

信息可及权利来自于尊重公民14 第4卷第1期2

014年

或使用者个人的自主、自我决定和知情选择权。个人对与个人有关的事情做出理性的决定,必须基于对相关信息的可及和理解。同时公民的信息可

及权利,包括网络信息可及的权利,也是一种初始(p

rima facie)权利,即设条件不变时应该尊重、

保护和实施公民的网络信息可及权利,如果有一项更为重要的公民权利,例如公民人身安全的权利与之相冲突,或有重大的公共利益(例如保障国家或社会的安全)与之相冲突,可以暂停或限制公民的信息可及权利。但暂停或限制公民的信息可及权,必须有充分的理由,对公民的这种权利的侵犯必须是最小程度的,侵犯的范围、程度和时间必须与所得

的效用(

例如国家安全得到保障)相称。因此,国家层次的审查、滤除、屏蔽行为也提出重要的伦理问题,即在什么条件下审查、滤除、屏蔽某些网站和内容可得到伦理学的辩护?如何评价审查、滤除和屏蔽所得和所失?多大的利弊得失比可让我们采取这种行动?

一方面是如何确保使用者信息可及的正当权利,另一方面如何防止不

当可及(inapprop

riate access),包括垃圾邮件、网络色情材料、网上兜售药品等十分严重的问题,已引起各国政府的关注。例如在英国,根据信息专员(Information 

Commissioner)办公室的建议,制订了《隐私和电子通讯条例》,规定公司发送未经请求的电子营销材料的规则,要求公司给用户发送

未经请求的营销材料必须事先获得同意(consent

),或者在每次发送消息时让用户有机会表示反对。如果用户收到未经请求的电子营销材料,且在用户表示拒绝后还这样做,用户可以向信息专员投诉。同时电子邮件的使用者也应自己来采取实际步骤减少垃圾邮件。不当可及中最为严重的是对青少年造成伤害的网上色情和暴力材料的传播。一些国家要求搜索引擎安装滤过软件,防止青少年接触到这些材料。但同时应确保具有医学、科学、艺

术或教育的材料在网上为使用者普遍可及。(Gillies 

2012)4.安全/安保(Safety/Security

)互联网存在一种悖论:互联网的技术平台实际上是一个受高度管控的环境,然而通过在这个平台上建立的网页、email和社交网络地址表达的内容却往往被认为是完全不受管控的虚拟荒野,不必考虑规则。目前,网络犯罪迭起,从制造播散病毒,黑客入侵,诈骗,造谣惑众,身份盗窃,网络贩卖假

药、

毒品、枪支、人口、器官,教唆杀人和自杀,传播色情材料,到恐怖主义利24《科学与社会》(S&S) 

用网络危害国家利益。根据英国广播标准理事会1999年的调查,3/4的人

要求加强对互联网的管理。(Gillies 

2012)“安全”(safety)和“安保”(security

)是两个概念,安全是防范因客观因素或无意地主观因素发生的伤害、

事故,保护使用者和机构的利益;而安保是防范主观恶意引起的伤害、事故,涉及保障社会或国家的安全,防止反社会分子、敌对势力或恐怖主义集团和分子利用网络对影响国计民生或国防的设施进行预谋的、有其政治目的的攻击。某些行业的信息比如金融数据、医疗信息以及政府情报等都可能有保密措施不完善引起的安全和安保问

题,

大数据的分析和应用会催生出一些新的、需要考虑的安全和安保问题。例如商业上利用大数据追踪顾客,需要有规范,不能仅仅考虑利用大数据分析研发新产品、新服务方式的效益,也要考虑涉及利益攸关者的价值。例如

我们前面引述的Targ

et公司的例子,他们急于将新型的个体化服务提供给顾客,而没有考虑到这位少女顾客与她家庭的关系。2001年美国的《

拦截和阻断恐怖主义法》(Intercep

t and Obstruct Terrorism Act)授予美国政府广泛而全面的权力来监控电话和邮件,以及获取医疗、金融和其他记录。结果造成斯诺登揭发的政府执法部门滥用权力广泛侵犯国内外公民人权而引起全世界人民痛恨的景象。政府执法部门利用大数据监控恐怖主义分子或其他有组织犯罪分子,这是在伦理学上可以得到辩护的。但在什么条件下对一些人的实施监控可在伦理学上得到辩护呢?可设想如下条件:有充分证据证明拟监控对象有危及国家和社会安全的行为,或与恐怖主义或其他严重犯罪集团有不寻常的联系;监控确能达到维护国家和社会安全的效用;

监控为维护国家和社会安全所必需(没有其他选择);监控应具有相称性(即

监控程度要适当);监控要对所涉个人的自由和权利侵犯最小化;监控应合

法(必要时专门立法);监控应透明(让公众知道监控的必要和相关规定);一

旦发现监控出现错误(冤枉好人)应及时平反纠错,给与赔偿。

5.数字鸿沟(Dig

ital Divide)数字鸿沟是一种“技术鸿沟”(technolog

ical divide),即先进技术的成果不能为人公平分享,于是造成“富者越富,穷者越穷”的情况。这是一个公正问题。数字鸿沟的概念涉及在信息技术及与其有关的服务、通讯和信息可

及方面的失衡关系,

在全球或各国贫富之间、男女之间、受教育与未受教育34 第4卷第1期2

014年

之间信息可及的不平等和不公平。与区别或差异的概念相反,鸿沟是指某

些群体在信息可及方面遭到不合伦理和得不到辩护的排除(exclusion

)。除了衣食住行、医疗、教育、安全等基本品外,信息也应该被视为基本品,因此

要求信息的公正分配,以及对信息技术及信息的普遍可及。(Hessen 

2012)信息通信技术是逐渐摆脱贫困的重要手段。然而,一方面网络使用在不断普及,但另一方面却加剧了贫富差距,在信息“富有者”和“贫困者”之间形成一道数字鸿沟。互联网的普及率数据(1999年末)

显示,加拿大达到每千人中有428.2人的普及率,而全球平均水平仅为46.74人;印尼为0.18

人,菲律宾为0.23人,泰国为0.49人。(Sembok 

2003)数字鸿沟造成了对弱势群体的歧视,形成了一种新的社会不公正。如何克服数字鸿沟,这是信息社会的时代面临主要挑战之一。(Sembok 

2003)我国网民近6亿人,那么其余7亿人呢?在我国是否也存在数字鸿沟,

如果存在,我们如何努力来缩小或填补,使得这奇妙的信息通讯技术和大数据技术能造福绝大多数人,在实现“小康”社会中发挥最大作用。

如何解决这些伦理问题?这些都是信息通讯技术和大数据技术创新提出的新的伦理问题,或虽然以前已提出但至今未解决或很好解决的伦理问题,因此仍然有待于解决的是我们应该做什么和应该如何做的问题。在鉴定新技术提出的伦理问题后,我们一般不能依靠现有的规则或新制订的规则,用演绎方法,自上而下地加以解决;反之,需要自下而上地分析这些伦理问题,考虑其特点,对相关利益攸关者的价值给予权衡,以找到解决办法的选项,然后应用伦理学的理论和原则加以论证。因此,我们说伦理学的工作

是“鉴定”、“权衡”和“论证”。与科学技术要解决的“能不能”问题不同,伦理

学要解决的是“该不该”问题。要解决“该不该”问题时,我们就必须首先考虑要选择哪些价值。

三、大数据技术的伦理治理

有关信息通讯和大数据技术的管理问题,我们推荐“伦理治理”这一概

念。治理(g

overnance)与管理不同,管理(management,regulation)是治理的一个方面,治理的意义是决策和决策实施过程,并包括公司、地方、国家以及国际多个层面。对治理的分析集中于涉及决策和决策实施的种种行动者

44《科学与社会》(S&S) 

及其结构。在治理中政府是一个重要行动者,但还包括其他利益相关者,例如在信息通讯和大数据技术领域,包括科研人员、网络/平台的拥有者和提供者、使用者、政府执法部门、政府非执法部门,以及相关的学术、维权组织。因此治理意味着一项决定不单是依赖权力或市场,而是一个多方面协调的行动。同时由于新的科学技术创新越来越引起公众的伦理关注,伦理学与处于社会之中的科学技术紧密相连,解决这些问题单单靠决策者或科学家或伦理学家都有局限,需要多元部门、多个学科共同参与,研讨科学技术创新提出的新的伦理、法律和社会问题,并提出政策、法律法规和管理方面的

建议,因此进一步提出“伦理治理”(ethical g

overnance)这一概念。(Ozoli-na et 

al.2009)据此,我们认为对信息通讯和大数据技术的管理应该是多层次的,有科

研和从业人员的自我管理,

有商业机构或公共机构的管理,也有政府的管理。我们在多年研究的基础上提出大数据技术的伦理治理原则的建议。伦

理原则是利益攸关者应尽的义务,

也是我们应该信守的价值,这些伦理原则构成一个评价我们行动(包括决策、立法)的伦理框架:评价的结果将是,这个行动是应该做的或有义务做的;或者这个行动是不应该做的或应该禁止做的;或者这个行动是允许做的,也允许不做。正如我们在前面说过的那

样,其中每一条原则都是一项“初始”(p

rima facie)义务。原则1:基本目的。大数据技术(包括更大范围的信息通讯技术)创新、研发和应用的目的是促进人的幸福和提高人生活质量,并仅用于合法、合乎伦理和非歧视性目的。大数据方面的任何行动应根据不伤害人和有益于人的伦理原则给予评价,以此作为努力权衡预期的受益与可能的风险的基础。同时也应合适地平衡个体与公共的利益。在为了公共利益而限制个人的权利和利益时,这种限制应该是必要的、相称的和最低限度的。

原则2:负责研究。大数据技术的研发及其应用应该保持高标准的负责研究,即坚持研究诚信,反对不端和有问题的行为,承诺维护和保护个人的权利和利益。为了在所有的分析和应用中防止身份被窃取,保护个人隐私和确保平等权利,必须承诺最高保准的诚信和数据库的安全。

原则3:利益冲突。在大数据技术的研发及其应用中,专业人员、公司和使用者之间的利益冲突应该作合适的处理。任何情况下人民(尤其是脆

弱人群)

的利益不能因追求专业人员或公司的利益而受到损害。54 第4卷第1期2

014年

原则4:尊重。尊重原则要求尊重人的自主性和自我决定权,必须坚持知情同意或知情选择原则。收集个人信息、将个人信息再使用于另一目的

时,必须获得同意。根据不同的情境,可以采用“广同意”(例如同意将个人

信息用于一类,而不是某一情况下)的办法,同意也可采取op

t-in(选择同意)或op

t-out(选择拒绝)两种方式。原则5:隐私。人的尊严要求我们保护隐私、为个人信息保密,要求我们不仅不要侵犯个人的隐私/保密权,而且要尽力防止不合适地和非法地泄露私人信息。

原则6:公正。公正原则要求有限资源的公平分配,防止因不适当地泄露个人信息而产生污名和歧视。要努力缩小和消除数字鸿沟。

原则7:共济。共济原则要求我们维护每个人享有从大数据技术研发

及其应用中受益的权利,

特别关注社会中的脆弱人群。原则8:透明。透明原则要求我们使大数据技术的研发及其应用对公众(

纳税人)成为透明的,帮助他们了解什么是大数据技术,能从其应用中得到什么受益和会有什么风险。

原则9:参与。参与原则要求我们采取措施促使公众对大数据技术的了解,并引导所有利益攸关者或其代表在上游就参与大数据技术的研发及

其应用的决策过程。(Zhai &Qiu 

2010)参考文献

[1]BCG(The Boston Consult Group).The Value of our Digital Identity.Published byLiberty 

Global.2012.[2]Buytendijk,Frank and Heiser,Jay.Confronting the privacy 

and ethical risks of BigData,http

://www.ft.com/cms/s/0/105e30a4-2549-11e3-b349-00144feab7de.html#a

xzz2rHWYouN8.[2013].[3]Davis,Kord.Ethics of Big Data-Balancing Risk and Innovation,O'Reilly Media.2012.

[4]Gillies,A.Internet,Regulation and Censorship

,in Ruth Chadwick(Editor inChief)Encyclopedia of App

lied Ethics,the 2nd edition,2012,752—759.[5]Heesen.J.Comp

uter and Communication Ethics,in Ruth Chadwick(Editor inChief)Encyclopedia of App

lied Ethics,the 2nd edition,2012,538—545.[6]Industry 

Canada's Electronic Commerce(ICECOM)Branch,Government of Canada.64《科学与社会》(S&S) 

Protecting and Managing Digital Identity 

Online.https://www.ic.gc.ca/eic/site/ecic-ceac.nsf/eng/g

v00585.html[2011].[7]Kinderlerer,Julian et al.Ethics of Information and Communication Technolog

ies,Opinion of the European Group 

on Ethics in Science and New Technologies to theEurop

ean Commission.2012.[8]Novet,Jordan.The ethics of big data:A council forms to help 

researchers avoidpratfalls.http://venturebeat.com/2013/11/18/the-ethics-of-big

-data-a-council-forms-to-help-researchers-avoid-p

ratfalls/[2013].[9]Ozolina Z et al.Global Governance of Science:Report of the Expert Group 

on GlobalGovernance of Science to the Science,Economy and Society 

Directorate,Directorate-General for Research,European Commission.Brussels:Europ

ean Commission.2009.

[10]Rayport Jeffrey.What big 

data needs:A code of ethical practices,MIT TechnologyReview,http://www.technologyreview.com/news/424104/what-big

-data-needs-a-code-of-ethical-p

ractices/[2011].[11]Riglian,Adam.Big 

data collection efforts spark an information debate.http://searchcloudapplications.techtarget.com/feature/Big-data-collection-efforts-sp

ark-an-information-ethics-

debate[2012].[12]Sembok,Tengku Mohd.2003Ethics of Information Communication Technology

.Paper prepared for the Regional Meeting 

on Ethics of Science and Technology.Bangkok UNESCO,Reg

ional Unit for Social &Human Sciences in Asia and thePacific.

[13]Steiner,Peter.On the Internet,nobody 

knows you are a dog.The New Yorker.http://en.wikipedia.org/wiki/On_the_Internet,_nobody_knows_y

ou%27re_a_dog

.[1993][14]涂子沛.大数据.广西:广西师范大学出版社,2012.

[15]Wolken,Matt.The ethics of Big 

Data and privacy.http://en.community.dell.com/dell-blogs/direct2dell/b/direct2dell/archive/2013/11/12/the-ethics-of-big

-da-ta-and-privacy.asp

x[2013].[16]Zhai Xiaomei and Qiu Renzong.The status quo and ethical g

overnance in biometricin mainland China,in Kumar,A and Zhang,D(ed.)Ethics and Policy 

of Biomet-rics,Berli/Heiderbergn:Spring-Verlag

.2010,127-139.[17]中国互联网信息中心.中国互联网络发展状况统计报告.http

://www.cnnic.net.cn/gy

wm/xwzx/rdxw/rdxx/201307/t20130717_40663.htm.[2013-7-17].74 第4卷第1期2

014年

Ethical Issues in Big 

Data TechnologyQIU Ren-zong1,2 HUANG 

Wen2 ZHAI Xiao-mei 2(1 Institute of Philosophy/Center for App

lied Ethics,CASS;2 Center for Bioethics,School of the Humanities &Social Sciences,Peking 

Union Medical College)Abstract:This article explores ethical issues in the innovation,research and development,and ap

-plication of big data technology.It points out that being 

a double-edged sword,the innovation of bigdata technology would bring 

huge benefits to individuals of hundreds of millions,enterprises and thesociety at large;at the same time,it may cause potential risks.It requires us to identify 

risks andbalance between benefits and risk caused by 

the innovation.It also discusses ethical issues such asdigital identity,privacy,accessibility,safety 

and security,digital divide,etc.,which are related toinformation and communication technologies and big data technology,as well as their solving 

ap-proaches.Finally,it introduces the concept of ethical governance and claims that the successful ap

-plication of big data requires developing an ethical framework for evaluating the actions we may 

takein the area of big 

data,that is,ethical principles,which will form an ethical foundation for develo-ping 

codes of conduct,regulations and legislations.Key 

words:big data,digital identity,privacy,accessibility,safety,security,digital divide,ethi-cal g

overnance(责任编辑 肖利)84《科学与社会》(S&S) 

大数据分析平台技术要求

大数据平台技术要求 1.技术构架需求 采用平台化策略,全面建立先进、安全、可靠、灵活、方便扩展、便于部署、操作简单、易于维护、互联互通、信息共享的软件。 技术构架的基本要求: ?采用多层体系结构,应用软件系统具有相对的独立性,不依赖任何特定的操作系统、特定的数据库系统、特定的中间件应用服务器和特定的硬 件环境,便于系统今后的在不同的系统平台、不同的硬件环境下安装、 部署、升级移植,保证系统具有一定的可伸缩性和可扩展性。 ?实现B(浏览器)/A(应用服务器)/D(数据库服务器)应用模式。 ?采用平台化和构件化技术,实现系统能够根据需要方便地进行扩展。2. 功能指标需求 2.1基础平台 本项目的基础平台包括:元数据管理平台、数据交换平台、应用支撑平台。按照SOA的体系架构,实现对我校数据资源中心的服务化、构件化、定制化管理。 2.1.1元数据管理平台 根据我校的业务需求,制定统一的技术元数据和业务元数据标准,覆盖多种来源统计数据采集、加工、清洗、加载、多维生成、分析利用、发布、归档等各个环节,建立相应的管理维护机制,梳理并加载各种元数据。 具体实施内容包括: ●根据业务特点,制定元数据标准,要满足元数据在口径、分类等方面的 历史变化。 ●支持对元数据的管理,包括:定义、添加、删除、查询和修改等操作,

支持对派生元数据的管理,如派生指标、代码重新组合等,对元数据管 理实行权限控制。 ●通过元数据,实现对各类业务数据的统一管理和利用,包括: ?基础数据管理:建立各类业务数据与元数据的映射关系,实现统一的 数据查询、处理、报表管理。 ?ETL:通过元数据获取ETL规则的描述信息,包括字段映射、数据转 换、数据转换、数据清洗、数据加载规则以及错误处理等。 ?数据仓库:利用元数据实现对数据仓库结构的描述,包括仓库模式、 视图、维、层次结构维度描述、多维查询的描述、立方体(CUBE)的 结构等。 ●元数据版本控制及追溯、操作日志管理。 2.1.2数据交换平台 结合元数据管理模块并完成二次开发,构建统一的数据交换平台。实现统计数据从一套表采集平台,通过数据抽取、清洗和转换等操作,最终加载到数据仓库中,完成整个数据交换过程的配置、管理和监控功能。 具体要求包括: ●支持多种数据格式的数据交换,如关系型数据库:MS-SQLServer、MYSQL、 Oracle、DB2等;文件格式:DBF、Excel、Txt、Cvs等。 ●支持数据交换规则的描述,包括字段映射、数据转换、数据转换、数据 清洗、数据加载规则以及错误处理等。 ●支持数据交换任务的发布与执行监控,如任务的执行计划制定、定期执 行、人工执行、结果反馈、异常监控。 ●支持增量抽取的处理方式,增量加载的处理方式; ●支持元数据的管理,能提供动态的影响分析,能与前端报表系统结合, 分析报表到业务系统的血缘分析关系; ●具有灵活的可编程性、模块化的设计能力,数据处理流程,客户自定义 脚本和函数等具备可重用性; ●支持断点续传及异常数据审核、回滚等交换机制。

大数据平台建设方案

大数据平台建设方案 (项目需求与技术方案) 一、项目背景 “十三五”期间,随着我国现代信息技术的蓬勃发展,信息化建设模式发生根本性转变,一场以云计算、大数据、物联网、移动应用等技术为核心的“新 IT”浪潮风起云涌,信息化应用进入一个“新常态”。***(某政府部门)为积极应对“互联网+”和大数据时代的机遇和挑战,适应全省经济社会发展与改革要求,大数据平台应运而生。 大数据平台整合省社会经济发展资源,打造集数据采集、数据处理、监测管理、预测预警、应急指挥、可视化平台于一体的大数据平台,以信息化提升数据化管理与服务能力,及时准确掌握社会经济发展情况,做到“用数据说话、用数据管理、用数据决策、用数据创新”,牢牢把握社会经济发展主动权和话语权。 二、建设目标 大数据平台是顺应目前信息化技术水平发展、服务政府职能改革的架构平台。它的主要目标是强化经济运行监测分析,实现企业信用社会化监督,建立规范化共建共享投资项目管理体系,推进政务数据共享和业务协同,为决策提供及时、准确、可靠的信息依据,提高政务工作的前瞻性和针对性,加大宏观调控力度,促进经济持续健康发展。 1、制定统一信息资源管理规范,拓宽数据获取渠道,整合业务信

息系统数据、企业单位数据和互联网抓取数据,构建汇聚式一体化数据库,为平台打下坚实稳固的数据基础。 2、梳理各相关系统数据资源的关联性,编制数据资源目录,建立信息资源交换管理标准体系,在业务可行性的基础上,实现数据信息共享,推进信息公开,建立跨部门跨领域经济形势分析制度。 3、在大数据分析监测基础上,为政府把握经济发展趋势、预见经济发展潜在问题、辅助经济决策提供基础支撑。 三、建设原则 大数据平台以信息资源整合为重点,以大数据应用为核心,坚持“统筹规划、分步实施,整合资源、协同共享,突出重点、注重实效,深化应用、创新驱动”的原则,全面提升信息化建设水平,促进全省经济持续健康发展。

大数据标准体系

附件1 大数据标准体系 序号一级分类二级分类国家标准编号标准名称状态 1 基础标准总则信息技术大数据标准化指南暂时空缺 2 术语信息技术大数据术语已申报 3 参考模型信息技术大数据参考模型已申报 4 数据处理数据整理GB/T 18142-2000 信息技术数据元素值格式记法已发布 5 GB/T 18391.1-2009 信息技术元数据注册系统(MDR)第1部分:框架已发布 6 GB/T 18391.2-2009 信息技术元数据注册系统(MDR)第2部分:分类已发布 7 GB/T 18391.3-2009 信息技术元数据注册系统(MDR)第3部分:注册系统元模型与基本属性已发布 8 GB/T 18391.4-2009 信息技术元数据注册系统(MDR)第4部分:数据定义的形成已发布 9 GB/T 18391.5-2009 信息技术元数据注册系统(MDR)第5部分:命名和标识原则已发布 10 GB/T 18391.6-2009 信息技术元数据注册系统(MDR)第6部分:注册已发布 11 GB/T 21025-2007 XML使用指南已发布 12 GB/T 23824.1-2009 信息技术实现元数据注册系统内容一致性的规程第1 部分:数据元已发布 13 GB/T 23824.3-2009 信息技术实现元数据注册系统内容一致性的规程第3 部分:值域已发布 14 20051294-T-339 信息技术元模型互操作性框架第1部分:参考模型已报批 15 20051295-T-339 信息技术元模型互操作性框架第2部分:核心模型已报批 16 20051296-T-339 信息技术元模型互操作性框架第3部分:本体注册的元模型已报批 17 20051297-T-339 信息技术元模型互操作性框架第4部分:模型映射的元模型已报批 18 20080046-T-469 信息技术元数据模块(MM) 第1 部分:框架已报批

农业大数据应用平台技术要求

市农业大数据应用平台 建设项目 技术要求 2016年

目录 1技术要求 (3) 1.1项目目标 (3) 1.2建设现状 (3) 1.3建设原则 (4) 1.3.1先进性和成熟性 (4) 1.3.2可靠性和安全性 (5) 1.3.3开放性和标准化 (5) 1.3.4伸缩性和可扩展性 (5) 1.3.5易用性和可控性 (5) 1.4总体要求 (6) 1.4.1技术路线 (6) 1.4.2技术要求 (6) 1.4.3界面设计要求 (8) 1.4.4技术指标要求 (8) 1.5建设内容 (10) 1.5.1门户网站建设 (10) 1.5.2农业项目管理系统建设 (11) 1.5.3现有业务系统整合 (12) 1.6工程控制及验收需求................................................................. 错误!未定义书签。 1.6.1工程控制......................................................................... 错误!未定义书签。 1.6.2总体建设进度................................................................. 错误!未定义书签。 1.6.3里程碑及阶段交付物..................................................... 错误!未定义书签。 1.6.4项目验收......................................................................... 错误!未定义书签。2数据采集设备参数要求 (12)

基于大数据的智能家电节能技术规范

基于大数据的智能家电节能技术规范 1 范围 本规范规定了智能家电基于物联网云端大数据技术实现舒适节能的定义、技术要求和检测评价方法,并根据智能化技术应用情况和智能化水平来评价系统(设备+平台)的节能特性。 本规范适用于应用物联网技术、有节能需求的家电产品,包括但不限于智能空调、热水器、洗衣机、冰箱等产品。 2 规范性引用文件 下列文件中的条款通过本规范的引用而成为本规范的条款。凡是注日期的引用文件,其随后所有的修改单(不包括勘误表的内容)或修订版均不适用于本规范。然而,鼓励根据本规范达成协议的各方研究是否可使用这些文件的最新版本。凡是不注日期的引用文件,其最新版本适用于本规范。 GB 4706.1《家用和类似用途电器的安全第1部分:通用要求》 GB/T 28219 《智能家用电器的智能化技术通则》 GB/T 7725-2004 《房间空气调节器》 GB 4706.1-2005 《家用和类似用途电器的安全通用要求》 GB 4706.32-2012 《家用和类似用途电器的安全热泵空调器和除湿机的特殊要求》GB 21455-2013 《转速可控型房间空调器能效限定值及能源效率等级》 GB 19606-2004《家用和类似用途电器噪声限值》 T/CAS 289-2017 《家用房间空气调节器智能水平评价技术规范》 T/CAS 290-2017《智能家电系统互联互操作评价技术指南要求》 GB/T 18336.1—2008 信息技术安全技术信息技术安全性评估准则第1部分:简介和一般模型(IDT ISO/IEC 15408—1:2005) ⅡGB/T 18336.2—2008 信息技术安全技术信息技术安全性评估准则第2部分:安全功能要求(IDT ISO/IEC 15408—2:2005) GB/T 18336.3—2008 信息技术安全技术信息技术安全性评估准则第3部分:安全保证要求(IDT ISO/IEC 15408—3:2005) GB/T 20000.1—2014 标准化工作指南第1部分:标准化和相关活动的通用术语 QB/T 2836—2006 网络家电通用要求 GB/T 25000.51 系统与软件工程系统与软件质量要求和评价(SQuaRE)第51部分:就绪可用软件产品(RUSP)的质量要求和测试细则 GB/T 25000.10 系统与软件工程系统与软件质量要求和评价(SQuaRE)第10部分:系统与软件质量模型 3 术语和定义 除下列术语和定义外,GB/T 28219-2011中的术语和定义,均适用本规范。 3.1节能服务平台energy conservation service platform 利用大数据技术为智能家电节能提供服务的系统(以下统一称为“平台”)。

移动网OMC北向接口技术规范大数据量配置管理接口功能需求v

移动网O M C北向接口技术规范大数据量配置管理接口功能需求v 公司标准化编码 [QQX96QT-XQQB89Q8-NQQJ6Q8-MQM9N]

中国移动通信企业标准 QB-╳-╳╳╳-╳╳╳╳ 移动通信网网络管理接口技术规范 -- 大数据量配置管理接口功能需求 N e t w o r k M a n a g e m e n t I n t e r f a c e S p e c i f i c a t i o n f o r M o b i l e C o m m u n i c a t i o n N e t w o r k --B u l k C o n f i g u r a t i o n M a n a g e m e n t I n t e r f a c e F u n c t i o n R e q u i r e m e n t s 版本号:3.0.0 20××-××-××发布20××-××-××实施 中国移动通信有限公司发布

目录

前言 本规范是《移动通信网网络管理接口技术规范》系列标准中的第二项的子项。该系列标准预计分为三部分:基本原则、厂商网元管理系统北向接口部分和直连网元部分,其中,每一部分又包含若干项,其结构及名称预计如下: 1)移动通信网网络管理接口技术规范-基本原则 2)移动通信网网络管理接口技术规范-功能需求 3)移动通信网网络管理接口技术规范-分析 4)移动通信网网络管理接口技术规范-资源模型 5)移动通信网网络管理接口技术规范-CORBA设计 6)移动通信网网络管理接口技术规范-文件格式 7)移动通信网网络管理接口技术规范-DN和Filter的约定 8)移动通信网网络管理接口技术规范-补充说明文件 9)移动通信网网络管理接口技术规范-接口性能指标 10)移动通信网网络管理接口技术规范-直连网元 本规范为《移动通信网网络管理接口技术规范大数据量配置管理接口功能需求》,是参考国际电信联盟-电信标准部(ITU-T)的相关建议、3GPP 相关建议以及对象管理组织OMG的有关规范,并依据中国移动通信有限公司的移动通信网网络管理需求编制而成的。 本规范由中国移动通信有限公司网络部提出并归口 本规范起草单位:中国移动通信有限公司网络部,北京邮电大学 本规范主要起草人:李冶文、王烨、徐海东、熊宙实、魏丽红 李文璟、芮兰兰、姚羿志 本规范解释单位:中国移动通信有限公司网络部 本规范由中国移动通信有限公司XXX号文发布

大数据标准体系

附件 1 大数据标准体系 序号一级分类二级分类国家标准编号标准名称状态 1总则信息技术大数据标准化指南暂时空缺2基础标准术语信息技术大数据术语已申报3参考模型信息技术大数据参考模型已申报4GB/T 18142-2000信息技术数据元素值格式记法已发布5GB/T 18391.1-2009信息技术元数据注册系统(MDR) 第 1 部分:框架已发布6GB/T 18391.2-2009信息技术元数据注册系统(MDR) 第 2 部分:分类已发布7数据处理数据整理GB/T 18391.3-2009信息技术元数据注册系统(MDR) 第 3 部分:注册系统元模型与基本属性已发布8GB/T 18391.4-2009信息技术元数据注册系统(MDR) 第 4 部分:数据定义的形成已发布9GB/T 18391.5-2009信息技术元数据注册系统(MDR) 第 5 部分:命名和标识原则已发布10GB/T 18391.6-2009信息技术元数据注册系统(MDR) 第 6 部分:注册已发布

11GB/T 21025-2007XML 使用指南已发布12GB/T 23824.1-2009信息技术实现元数据注册系统内容一致性的规程第 1 部分:数据元已发布13GB/T 23824.3-2009信息技术实现元数据注册系统内容一致性的规程第 3 部分:值域已发布1420051294-T-339信息技术元模型互操作性框架第1部分:参考模型已报批1520051295-T-339信息技术元模型互操作性框架第2部分:核心模型已报批1620051296-T-339信息技术元模型互操作性框架第3部分:本体注册的元模型已报批1720051297-T-339信息技术元模型互操作性框架第4部分:模型映射的元模型已报批1820080046-T-469信息技术元数据模块 (MM) 第 1部分 :框架已报批1920080044-T-469信息技术技术标准及规范文件的元数据已报批2020080045-T-469信息技术通用逻辑基于逻辑的语系的框架已报批2120080485-T-469跨平台的元数据检索、提取与汇交协议已报批22信息技术异构媒体数据统一语义描述已申报23数据分析信息技术大数据分析总体技术要求暂时空缺

系统各项技术应遵循大数据相关规范要求

(一)系统各项技术应遵循大数据相关规范要求; 大数据处理关键技术一般包括:大数据采集、大数据预处理、大 数据存储及管理、大数据分析及挖掘、大数据展现和应用(大数据检 索、大数据可视化、大数据应用、大数据安全等) 一、大数据采集技术 数据是指通过RFID射频数据、传感器数据、社交网络交互数据及移动互联网数据等方式获得的各种类型的结构化、半结构化 (或称之为弱结构化)及非结构化的海量数据,是大数据知识服务模型的根本。重点要突破分布式高速高可靠数据爬取或采集、高速数据全映 像等大数据收集技术;突破高速数据解析、转换与装载等大数据整合技术;设计质量评估模型,开发数据质量技术。 大数据采集一般分为大数据智能感知层:主要包括数据传感体系、网络通信体系、传感适配体系、智能识别体系及软硬件资源接入 系统,实现对结构化、半结构化、非结构化的海量数据的智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理等。必 须着重攻克针对大数据源的智能识别、感知、适配、传输、接入等技术。基础支撑层:提供大数据服务平台所需的虚拟服务器,结构化、 半结构化及非结构化数据的数据库及物联网络资源等基础支撑环境。重点攻克分布式虚拟存储技术,大数据获取、存储、组织、分析和决 策操作的可视化接口技术,大数据的网络传输与压缩技术,大数据隐私保护技术等. 二、大数据预处理技术

主要完成对已接收数据的辨析、抽取、清洗等操作。 1)抽取: 因获取的数据可能具有多种结构和类型,数据抽取过程可以帮助我们将这些复杂的数据转化为单一的或者便于处理的构型, 以达到快速分析处理的目的。 2)清洗: 对于大数据,并不全是有价值的,有些数据并不是我们所关心的内容,而另一些数据则是完全错误的干扰项,因此要对数据通过过滤“去噪”从而提取出有效数据。 三、大数据存储及管理技术 大数据存储与管理要用存储器把采集到的数据存储起来,建立相应的数据库,并进行管理和调用。重点解决复杂结构化、半结构化和 非结构化大数据管理与处理技术。主要解决大数据的可存储、可表示、可处理、可靠性及有效传输等几个关键问题。开发可靠的分布式文 件系统(DFS)、能效优化的存储、计算融入存储、大数据的去冗余及高效低成本的大数据存储技术;突破分布式非关系型大数 据管理与处理技术,异构数据的数据融合技术,数据组织技术,研究大数据建模技术;突破大数据索引技术;突破大数据移动、 备份、复制等技术;开发大数据可视化技术。 开发新型数据库技术, 数据库分为关系型数据库、非关系型数据库以及数据库缓存系统。其中,非关系型数据库主要指的是NoSQL数据库,分为:键值数据库、列存数据库、图存数据库以及文档数据库

大数据分析平台技术要求

大数据平台技术要求 1. 技术构架需求 采用平台化策略,全面建立先进、安全、可靠、灵活、方便扩展、便于部署、操作简单、易于维护、互联互通、信息共享的软件。 技术构架的基本要求: 采用多层体系结构,应用软件系统具有相对的独立性,不依赖任何特定的操作系统、特定的数据库系统、特定的中间件应用服务器和特定的硬 件环境,便于系统今后的在不同的系统平台、不同的硬件环境下安装、 部署、升级移植,保证系统具有一定的可伸缩性和可扩展性。 实现B(浏览器)/A(应用服务器)/D(数据库服务器)应用模式。 采用平台化和构件化技术,实现系统能够根据需要方便地进行扩展。2. 功能指标需求 2.1基础平台 本项目的基础平台包括:元数据管理平台、数据交换平台、应用支撑平台。按照SOA的体系架构,实现对我校数据资源中心的服务化、构件化、定制化管理。 2.1.1元数据管理平台 根据我校的业务需求,制定统一的技术元数据和业务元数据标准,覆盖多种来源统计数据采集、加工、清洗、加载、多维生成、分析利用、发布、归档等各个环节,建立相应的管理维护机制,梳理并加载各种元数据。 具体实施内容包括: ●根据业务特点,制定元数据标准,要满足元数据在口径、分类等方面的 历史变化。 ●支持对元数据的管理,包括:定义、添加、删除、查询和修改等操作,

支持对派生元数据的管理,如派生指标、代码重新组合等,对元数据管 理实行权限控制。 ●通过元数据,实现对各类业务数据的统一管理和利用,包括: ?基础数据管理:建立各类业务数据与元数据的映射关系,实现统一 的数据查询、处理、报表管理。 ?ETL:通过元数据获取ETL规则的描述信息,包括字段映射、数据转 换、数据转换、数据清洗、数据加载规则以及错误处理等。 ?数据仓库:利用元数据实现对数据仓库结构的描述,包括仓库模式、 视图、维、层次结构维度描述、多维查询的描述、立方体(CUBE) 的结构等。 ●元数据版本控制及追溯、操作日志管理。 2.1.2数据交换平台 结合元数据管理模块并完成二次开发,构建统一的数据交换平台。实现统计数据从一套表采集平台,通过数据抽取、清洗和转换等操作,最终加载到数据仓库中,完成整个数据交换过程的配置、管理和监控功能。 具体要求包括: ●支持多种数据格式的数据交换,如关系型数据库:MS-SQLServer、MYSQL、 Oracle、DB2等;文件格式:DBF、Excel、Txt、Cvs等。 ●支持数据交换规则的描述,包括字段映射、数据转换、数据转换、数据 清洗、数据加载规则以及错误处理等。 ●支持数据交换任务的发布与执行监控,如任务的执行计划制定、定期执 行、人工执行、结果反馈、异常监控。 ●支持增量抽取的处理方式,增量加载的处理方式; ●支持元数据的管理,能提供动态的影响分析,能与前端报表系统结合, 分析报表到业务系统的血缘分析关系; ●具有灵活的可编程性、模块化的设计能力,数据处理流程,客户自定义 脚本和函数等具备可重用性; ●支持断点续传及异常数据审核、回滚等交换机制。

大数据中心建设功能要求技术规范word

大数据中心建设功能要求技术规范WORD版本下载后可编辑

一、数据服务中心建设规划 数据服务中心是整个智慧旅游大数据项目核心组成部分,在规划建设过程中,坚持以数据资源为核心,面向数据应用与服务、信息数据资源标准化与管理,实现数据资源横向集成、纵向贯通、全局共享的运转模式。数据服务中心数据流转图和逻辑架构如下图。 数服务中心逻辑架构图 整个数据服务中心逻辑组成部分有:数据存储、数据组织、数据处理、资源管理、数据服务支撑。 数据存储:基于大规模并行处理(Massively Parallel Processing,简称MPP)、Hadoop等分布式计算平台进行搭建,以满

足旅游行业结构化、图像视音频等非结构化多种类型格式的海量数据资源存储需求。 数据组织:对各类数据资源进行逻辑组织,形成基础数据资源库、专题应用资源库以及资源管理库,满足旅游行业数据资源应用、管理与服务的需求。 数据处理:主要包括数据整合汇集、数据标准化处理、通用数据处理、专题数据处理。从多个层面对数据资源进行分析挖掘,为不同业务需求提供数据处理服务支撑。 资源管理:资源管理从应用资源、数据资源、服务资源以及标准资源多个层面实现数据服务中心信息资源的管理与标准建设。 数据服务支撑:数据服务中心实现了智慧旅游云数据资源的存储和组织。主要包括基础数据资源库、专题应用资源库和资源管理库。 数据分析处理:面向具体业务需求,建立对应的数据分析处理模型,实现对数据资源的深度挖掘和综合利用。 1.1大数据平台建设 数据集中统一管理后,由于一体化业务为在线运行的系统,为避免大数据应用对现有生产系统造成影响,本期单独建设一套大数据平台,通过ETL将生产数据抽取到大数据平台中,进行分析处理,建立数据仓库,为上层应用提供支撑。 基于大数据等新先进理念,融合MPP、Hadoop、OLTP以及HDFS分布式文件系统等数据处理技术,构建具有海量数据处理能力

《大数据分析平台技术要求》

大数据分析平台技术要求 1.技术构架需求 采用平台化策略,全面建立先进、安全、可靠、灵活、方便扩展、便于部署、操作简单、易于维护、互联互通、信息共享的软件。 技术构架的基本要求: ?采用多层体系结构,应用软件系统具有相对的独立性,不依赖任何特定的操作系统、特定的数据库系统、特定的中间件应用服务器和特定的硬 件环境,便于系统今后的在不同的系统平台、不同的硬件环境下安装、 部署、升级移植,保证系统具有一定的可伸缩性和可扩展性。 ?实现B(浏览器)/A(应用服务器)/D(数据库服务器)应用模式。 ?采用平台化和构件化技术,实现系统能够根据需要方便地进行扩展。 ?

2. 功能指标需求 2.1基础平台 本项目的基础平台包括:元数据管理平台、数据交换平台、应用支撑平台。按照SOA的体系架构,实现对XX数据资源中心的服务化、构件化、定制化管理。 2.1.1元数据管理平台 根据XX的业务需求,制定统一的技术元数据和业务元数据标准,覆盖多种来源统计数据采集、加工、清洗、加载、多维生成、分析利用、发布、归档等各个环节,建立相应的管理维护机制,梳理并加载各种元数据。 具体实施内容包括: ●根据业务特点,制定元数据标准,要满足元数据在口径、分类等方面的 历史变化。 ●支持对元数据的管理,包括:定义、添加、删除、查询和修改等操作, 支持对派生元数据的管理,如派生指标、代码重新组合等,对元数据管 理实行权限控制。 ●通过元数据,实现对各类业务数据的统一管理和利用,包括: ?基础数据管理:建立各类业务数据与元数据的映射关系,实现统一 的数据查询、处理、报表管理。 ?ETL:通过元数据获取ETL规则的描述信息,包括字段映射、数据转 换、数据转换、数据清洗、数据加载规则以及错误处理等。

(参考)大数据平台项目方案.

大数据平台建设方案 (项目需求与技术方案) 一、项目背景 “十三五”期间,随着我国现代信息技术的蓬勃发展,信息化建设模式发生根本性转变,一场以云计算、大数据、物联网、移动应用等技术为核心的“新 IT”浪潮风起云涌,信息化应用进入一个“新常态”。***(某政府部门)为积极应对“互联网+”和大数据时代的机遇和挑战,适应全省经济社会发展与改革要求,大数据平台应运而生。 大数据平台整合省社会经济发展资源,打造集数据采集、数据处理、监测管理、预测预警、应急指挥、可视化平台于一体的大数据平台,以信息化提升数据化管理与服务能力,及时准确掌握社会经济发展情况,做到“用数据说话、用数据管理、用数据决策、用数据创新”,牢牢把握社会经济发展主动权和话语权。 二、建设目标 大数据平台是顺应目前信息化技术水平发展、服务政府职能改革的架构平台。它的主要目标是强化经济运行监测分析,实现企业信用社会化监督,建立规范化共建共享投资项目管理体系,推进政务数据共享和业务协同,为决策提供及时、准确、可靠的信息依据,提高政务工作的前瞻性和针对性,加大宏观调控力度,促进经济持续健康发

展。 1、制定统一信息资源管理规范,拓宽数据获取渠道,整合业务信息系统数据、企业单位数据和互联网抓取数据,构建汇聚式一体化数据库,为平台打下坚实稳固的数据基础。 2、梳理各相关系统数据资源的关联性,编制数据资源目录,建立信息资源交换管理标准体系,在业务可行性的基础上,实现数据信息共享,推进信息公开,建立跨部门跨领域经济形势分析制度。 3、在大数据分析监测基础上,为政府把握经济发展趋势、预见经济发展潜在问题、辅助经济决策提供基础支撑。 三、建设原则 大数据平台以信息资源整合为重点,以大数据应用为核心,坚持“统筹规划、分步实施,整合资源、协同共享,突出重点、注重实效,深化应用、创新驱动”的原则,全面提升信息化建设水平,促进全省经济持续健康发展。

数据信息管理平台质量技术标准及要求_公示_简

数据信息管理平台质量技术标准及要求 一、系统需求概述 为规范税收征管和加强税源监控,以金税三期返还数据为基础,构建基于云计算技术的大数据处理架构,抽取、整合、集中现有数据资源,采集第三方信息,搭建综合性税源数据仓库,建设与金税三期业务系统融合而不重叠的数据信息管理平台,实现对税收数据的准确、快速、深层次分析、多角度挖掘。 (一)总体思路和基本原则 1、技术架构设计科学。充分考虑地税税源数据几何式增长和数据挖掘分析需求,实施基于云计算的大数据处理技术,提供高性能、高可用、高性价比的数据处理能力。辅助以报表、图形、多媒体等相互补充的技术手段,达到对税收业务等结构化、行政管理非结构化以及其它半结构化数据的快速、准确、全面的分析、挖掘和展示。 2、合理利用现有硬件资源。依托甲方现有网络和硬件资源,采用4台高端服务器、1台网络存储和网络资源,搭建硬件基础平台。 3、数据仓库规划科学。采用先进数据仓库技术,对所有历史和在用数据库数据进行清洗、加工、整理、抽取和存储,对政府部门第三方信息、企业采集信息进行采集、整理和存储,整合原有个税软件、土地软件、房产软件等30多个应用系统软件功能和数据,逐步实现一体化建设目标。 4、软件开发工具先进。应用平台采用成熟的系统,结果快速和准确,可逐层钻取、能自定义查询。展示平台可以多屏展示,采用Flash、图表和多媒体结合的形式,为各级税务机关管理和决策提供依据。 5、软件开发和维护具有前瞻性。平台开发做到不重复、小而精、可扩展、好维护,同金税三期系统形成互补。 (二)总体要求 1.技术先进性及要求 (1)搭建基于大数据技术的数据仓库,解决数据查询访问速度瓶颈,满足对非结构化数据的支持,提供高性能、高可用、高性价比的数据处理能力。 (2)各功能操作响应时间和查询结果返回时间要在3至5秒内。 (3)根据上级部门要求,保证系统平台兼容性,数据库软件必须采用Oracle 11g,应用服务器必须采用 WebLogic11。 (4)系统平台只能利用招标人现有的硬件资源和网络资源。

《大数据平台数据标准》编制说明

内蒙古自治区地方标准《大数据平台数据标准》 (征求意见稿)编制说明 一、工作简况,包括任务来源,起草单位,协作单位,主要起草人; 2019年6月按照内蒙古自治区市场监督管理局2019年第一批内蒙古自治区地方标准制修订项目计划,批准文号为:内市监标准字[2019]170号,内蒙古大数据发展管理局启动了《大数据平台数据标准》的制定工作。起草单位为内蒙古自治区大数据发展管理局、内蒙古大学图书馆、内蒙古自治区大数据与云计算标准化委员会、内蒙古自治区发改委社会信用管理中心、内蒙古自治区标准化院信息中心、浪潮集团、内蒙古大学、中国电信股份有限公司内蒙古分公司、新华三技术有限公司等。归口单位为内蒙古自治区大数据发展管理局。主要起草人为:崔连伟、张建军、刘实、常亮、郭新灵、张文辉、李敏、崔波、孟晖、李向前、万磊。 二、制定标准的必要性和意义; 国务院2015年8月31日印发《国务院关于印发促进大数据发展行动纲要的通知(国发〔2015〕50 号)》和国务院办公厅2017年5月3日印发《政务信息系统整合共享实施方案》(国办发[2017]39号)明确要求建设相关标准体系,加快建立政府部门、事业单位等公共机构的数据标准和统计标准体系,推进数据采集、政府数据开放、指标口径、分类目录、交换接口、访问接口、数据质量、数据交易、技术产品、安全保密等关键共性标准的制定和实施同时加快建立大数据市场交易标准体系。开展标准验证和应用试点示范,建立标准符合性评估体系,充分发挥标准在培育服务市场、提升服务能力、支撑行业管理等方面的作用。积极参与相关国际标准制定工作。今年,党的十九大中再次提出,要“推动互联网、大数据、人工智能和实体经济深度融合”,为我国大数据领域的建设给出了指导意见。 《内蒙古自治区“十三五”信息化发展规划》要求推进政务大数据开发和共享利用。进一步加快人口、法人单位、电子证照、空间地理、统计、金融、信用体系等基础信息资源库共建共享,加快推进政府数据共享开放目录、指南和清单、整合形成自治区政府数据统一共享交换开放平台,促进政务在线协同和数据创新应用。围绕医疗卫生、文化教育、社会信用、综合治税、社会保障、食药监管、环境保护、电子监察、应急管理和法律监督等需求迫切、效益明显的业务需求,积极推进扩部门、跨地区、跨层级的信息共享和业务协同。 内蒙古自治区人民政府办公厅2017年3月14日印发“内蒙古自治区人民政

中国移动企业级省大数据平台技术规范运营维护管理分册0828合稿

中国移动通信企业标准 中国移动企业级大数据平台运 营维护子系统技术规范分册 T h e T e c h n i c a l S p e c i f i c a t i o n F a s c i c u l e o f O p e r a t i o n a n d M a i n t e n a n c e S u b s y s t e m f o r E n t e r p r i s e B i g D a t a P l a t f o r m o f C h i n a M o b i l e 版本号:1.0.0 中国移动通信集团公司 发布 2015-08-7发布 QB-Y-053-2015 2015-08-7实施

目录 1范围 (1) 2规范性引用文件 (1) 3术语、定义和缩略语 (6) 4总体说明 (9) 4.1概述 (9) 4.2建设目标 (9) 4.3功能说明 (10) 4.4建设原则 (13) 5运维数据采集 (14) 5.1运维数据采集范围 (14) 5.1.1物理资源数据 (14) 5.1.2逻辑资源数据 (25) 5.1.3应用资源数据 (28) 5.2数据采集周期 (29) 5.2.1实时数据采集 (30) 5.2.2准实时数据采集 (30) 5.2.3日数据采集 (30) 5.3数据采集方式 (30) 5.3.1触发式 (30) 5.3.2主动式 (30) 6监控分析 (30) 6.1实时监控 (31) 6.1.1物理资源监控 (31) 6.1.2逻辑资源监控 (32) 6.1.3应用资源监控 (32) 6.2告警提醒 (33) 6.2.1前台告警 (33) 6.2.2短信告警提醒 (33)

大数据中心建设功能要求技术规范

大数据中心建设功能要求技术规范 在明确了数据中心业务定位、建设规模、建设标准、指标体系,并完成选址工作后,下一步就需要对数据中心的技术要求做出明确标定。这个技术要求是对数据中心规划设计过程涉及的各专业系统做出详细具体的规定。一般来说,技术要求是在参考已有各类相关标准和规范的基础上,结合企业自身的实际情况而制定的。可供参考的国内外主要标准和规范如下所述。 1. 国内标准和规范 (1) 《电子信息系统机房设计规范》(GB50174—2008) (2) 《电子信息系统机房施工及验收规范》(GB50462—2008) (3) 《建筑物电子信息系统防雷技术规范》(GB50343—2004) (4) 《电子计算机场地通用规范》(GB/T2887—2000) (5) 《计算站场地安全要求》(GB9361—88) (6) 《气体灭火系统施工及验收规范》(GB50263—2007) (7) 《综合布线工程设计规范》(GB50311—2007) (8) 《综合布线系统工程验收规范》(GB50312—2007) (9) 《入侵报警系统工程设计规范》(GB50394—2007) (10) 《视频安防监控系统设计规范》(GB50395—2007) (11) 《出入口控制系统工程设计规范》(GB50396—2007) (12) 《气体灭火系统设计规范》(GB50370—2005) (13) 《安全防范工程技术规范》(GB50348—2004)

(14) 《火灾自动报警系统设计规范》(GB50116—98) (15) 《信息技术安全技术信息安全管理体系要求》(GB/T22080—2008) (16) 《信息安全技术信息系统安全等级保护基本要求》(GB/T22239—2008) (17) 《信息安全技术信息系统灾难恢复规范》(GB/T20988—2007) 2. 国外资料 (1) 《数据中心电信基础设施标准》(ANSI-TIA-942-2005) (2) Tier Classification White Paper(Up Time Institude) (3) 国际综合布线标准(EIA/TIA 568) (4) 美国LEED?绿色建筑认证标准 (5) 《业务连续性/灾难恢复(BC/DR)服务提供商新加坡标准》(SS507∶2004) (6) 《信息安全管理体系》(ISO27001) (7) 《业务连续性管理规范》(BS25999) 对以上相关标准进行研究和分析后,结合数据中心的建设、运营的特点和以往的实践经验,可以得出数据中心建设的技术要求,内容包括:总体设计理念、总平面布置、建筑工程、供配电、空调暖通、消防与给排水和建筑智能化等。 3.6.1. 总体设计理念

大数据平台测试标准

大数据标准化工作组织:ISO/IEC ITU NIST TPC SPEC TPC和SPEC两个组织关注大数据技术平台的基准测试:测试标准:TPCx-HS、TPCx-BB 工具:TeraSort 大数据测试第一阶段 大数据平台(Hadoop平台)基准测试的方法论和具体实施方案: 《大数据平台基准测试第一部分:技术要求》 《大数据平台基准测试第二部分:测试方法》 基准测试主要从性能的角度衡量大数据平台,主要考虑数据生成、负载选择和明确测试指标等内容。根据Hadoop平台的特点,从NoSQL任务、机器学习、SQL任务、批处理四大类任务中选择了10个测试用例作为负载。 大数据测试第二阶段 《Hadoop平台基础能力测试方法》 《Hadoop平台性能测试方法》 性能测试在基准测试的基础上进行了升级,如图2所示,增加了SQL用例的比重,按照SQL 任务的类型,从两个维度确立了5类任务,分别是CPU密集型任务、I/O密集型任务、报表任务、分析型任务、交互式查询。HBase的优势在于并发检索和读的性能,在负载方面选择了批量写入数据、并发读任务占多、并发更新任务较重、读取更改然后写回4类场景,充分检验了HBase数据库的并发执行能力。在机器学习和批处理方面相对基准测试方法减少了2个用例

Hadoop平台基础能力测试用例分布 Hadoop平台基础能力涵盖了运维管理、可用性、功能、兼容性、安全、多租户和扩展性等指标,总共38项测试用例: MPP数据库(面向在线分析处理(on-lineanalyticalprocessing,OLAP))的标准化 《MPP数据库基础能力测试方法》 工具: Terasort BigDataBench HBase性能由YCSB(Yahoo!cloudservingbenchmark)工具来测试

《基于大数据的智慧家庭服务平台评价技术规范 第6部分: 智慧客厅 》-编制说明

中国标准化协会标准《基于大数据的智慧家庭服务平台评价技术规范第6部分:智慧客厅》编制说明 一、工作简况 1、背景介绍 在2019年上海AWE上,大多数家电企业转向AIoT赛道,说明智能单品已经不能满足用户的体验需求,智能家电已经从单纯的连接转向"智能+"赋能,智能家电场景的联动会给用户带来更好的体验;智能将回归节能、健康、安全等消费本质。当然,智能单品产品的普及,也积累了海量的“数据宝库”,这些数据可以支撑、服务智能家电从智能单品转入场景联动的“智能+”阶段,利用物联网、大数据、人工智能技术等技术,通过搭建智慧家庭健康数据应用平台,从被动服务用户,转向主动服务用户,减少用户的日常干预,为用户提供“无感”的舒适、健康生活。 目前市场上的产品在用户健康数据的收集和使用等方面体现为碎片化、差异化;整个行业缺乏基于云计算、大数据平台的智能家电的数据应用标准,也造成了目前对数据应用混乱的局面,行业需要制定关于智慧家庭场景标准,能够有效地对用户家庭数据的应用规则和效果进行评判,有利于引导智能家居行业的发展和规范市场,也有利于提高用户体验。 标准的起草将填补智慧客厅场景标准的空白。 2、任务来源 本部分从基于大数据实现智慧家庭服务平台中智慧客厅场景的结构搭建、智能器具的连接、数据应用规范等方面制定技术规范,以引导、规范行业的健康发展。 从产业发展阶段、以及便于用户识别基于大数据的智慧家庭服务平台中智慧客厅场景的智能化程度考虑,本部分从健康、舒适、易用、安全、可靠等维度提出要求和给出相应的评价指标体系、评价规则、评价方法指南。由中家院(北京)检测认证有限公司、小米通讯技术有限公司、青岛海尔电子有限公司、青岛海信日立空调系统有限公司、广东美的暖通设备有限公司、宁波奥克斯电气股份有限公司、中国家用电器研究院、国家智能家居质量监督检验中心等共同向中国标协提出申请,经立项通过并印发了中国标协【2020】60号文件,项目名称:《基于大数据的智慧家

相关文档
相关文档 最新文档