文档库 最新最全的文档下载
当前位置:文档库 › 数据挖掘的隐私保护研究

数据挖掘的隐私保护研究

数据挖掘的隐私保护研究
数据挖掘的隐私保护研究

- 20 -

王滟方 谢文阁

(辽宁工业大学,辽宁 锦州 121001)

【摘 要】随着数据量的增大,数据挖掘技术应用不断扩大,如何在挖掘过程中不泄露私有信息或敏感知识,同时能得到比较准确的挖掘效果,已经成为数据挖掘研究中的一个热点课题。文章从数据分布的角度结合挖掘算法对目前几种关键的隐私保护方法进行了介绍、分析,给出算法的评估,最后分析总结了数据挖掘隐私保护未来的研究方向。

【关键词】数据挖掘;隐私保护 【中图分类号】TP311 【文献标识码】A 【文章编号】1008-1151(2010)10-0020-02

随着计算机和网络信息技术的发展,人们产生和搜集的数据大大增加,各行各业的历史数据量猛增。怎样从这些数据中获得有用的知识、信息,对数据分析提出了新的要求。数据挖掘刚好可以解决此问题,可以利用这些数据,得到有用的数据信息或结果,从而帮助决策者制定更好的决策,但是与此同时产生了一个重要问题那就是信息的泄露。各行业,各企业单位既想获得数据挖掘的有用结果,又不想将自己拥有的某些数据信息泄露给他方或他人。因此,如何在有效的数据挖掘中保护隐私数据已经成为一个重要问题。 (一)基本概念 1 数据挖掘 数据挖掘的定义很多,表达方式各不相同。从技术角度看,数据挖掘是从大量的、不完全、有噪声的、模糊的、随机的实际数据中,提取隐含在其中的、人们不知道的、但又是潜在有用的信息和知识的过程;从商业角度看,数据挖掘

是一种崭新的商业信息处理技术。其主要特点是对商业数据

库中的大量业务数据进行抽取、转化、分析和模式化处理,

从中提取辅助商业决策的关键知识,即从一个数据库中自动

发现相关商业模式。

数据挖掘是从数据库中知识发现中的一部分,而知识发

现是将原始数据转化为有用知识的整个过程。当数据挖掘成

为普及的涵盖面更广的术语时,数据挖掘与知识发现之间的

界限就不是那么明确了。事实上,在现如今大多数场合中,这两个术语的使用是不加以区别的,本文也不区分。知识发现是一个多步骤的过程,典型的知识发现过程包括以下几个步骤: (1)数据抽取与集成(抽取各个数据源的所需数据,进行合并处理) (2)数据预处理与清洗(对数据再加工,消除噪声等) (3)数据选择与变换(选择相关数据,统一成适合挖掘的形式) (4)数据挖掘(用智能的方法提取数据模式) (5)模型评估(根据需要,识别表示知识的真正有趣的模式) (6)知识表示(使用可视化等各种知识表示技术,向用户提供所挖掘的知识) 2 数据挖掘中的隐私 不同的环境下对隐私的定义不同。数据挖掘中涉及的隐私主要有:(1)个人隐私,一般指的是用户的一些能够识别用户身份的标识,如姓名、年龄、家庭住址、电话号码等,或者是用户某些行为产生的信息,例如购物信息,医疗信息等;(2)公共隐私,两个或多个机构,企业为了共同的利益,他们合作进行挖掘,在挖掘过程中都不愿意将自己的某些信息泄露给他方。

隐私保护的主要目标是使用某种方法对原始数据进行处

理,使得私有数据和知识在挖掘之后仍然是私有的。不但要在开始时对某些信息进行保护,而且对挖掘过程中产生的敏感规则也要进行保护,还要考虑挖掘产生的结果是否会包含某些重要的隐私信息。

(二)数据挖掘的隐私保护分类 1999年,Rakesh Agrawal 在KDD99中提出将数据挖掘的隐私保护将作为未来的研究重点之一,此后,数据挖掘的隐私保护得到了发展,许多方法不断的涌现。从不同的角度对数据挖掘的隐私保护方法的分类也不同。2004年,Vassilions S. Verykios 和Elisa Bertino 等人从数据分布、数据修改、数据挖掘算法、数据及规则的隐藏及隐私保护技术五个角度对现有的较为典型的隐私保护数据挖掘算法进行了分类。 1.数据的分布方式 根据数据的分布情况,可以分为集中式数据和分布式数据的隐私保护技术,其中分布式数据的隐私保护技术又分为水平分割和垂直分割的隐私保护技术。水平分割主要是指数

据按记录分布于多个机构或组织,垂直分割主要指数据按属性分布于多个机构或组织。

2.数据修改 为了确保原始数据中的隐私信息不被泄露,原始数据在被公开之前要进行一定的修改、伪装,数据修改方案需要和

隐私保护策略相结合。常用的数据修改方法主要有一下几种: (1)值替代方法:即将原始数据的属性值替换为一个新的值,或者用一个符号替代一个已存在的值,以此来保护敏

感的数据和规则; 【收稿日期】2010-07-15

【基金项目】辽宁省教育厅研究项目(2008314) 【作者简介】王滟方(1985-),女,辽宁工业大学电子与信息工程学院在读硕士研究生,研究方向为数据仓库、数据挖掘;谢文阁(1966-),男(满族),辽宁锦州人,辽宁工业大学电子与信息工程学院副教授,硕士生导师,研究方向为数据仓库、数据挖掘。

- 21 -

(2)聚集的方法:将多个详细的数据进行合并或者抽象为更高层次的数据;

(3)取样方法:即抽样,在数据集中抽取样本数据; (4)交换方法:记录值之间的交换; 3.数据挖掘算法

目前数据隐藏技术都是在不同的挖掘算法中进行考虑的,不同的挖掘算法应用的隐私保护技术不同,例如:决策树算法、关联规则算法、聚类分析等挖掘算法。

4.隐私保护的对象

这主要是指对原始数据的隐藏还是对隐含规则的隐藏。通常隐藏规则比伪装原始数据要复杂很多,有时通过保护敏感的隐含规则,往往能同时起到保护重要原始数据的目的。

5.隐私保护技术

指修改数据所采用的技术。主要有以下几种:

(1)基于启发式的隐私保护技术:仅修改一些特定值,而非所有数值,以减少挖掘效果的偏离;

(2)基于密码学的隐私保护技术:利用密码学方法来对数据进行加密,典型的是多方安全计算(SMC)方法,参与计算的各方只能获得自己所提供的输入数据以及最终结果,对其他参与者的数据一无所知;

(3)基于重构技术的方法:将数据进行变换后,再对原始分布进行重构。

(三)数据的分布方式

1.集中式数据分布 (1) 聚类的隐私保护

该算法主要采用对原始数据进行几何变换,例如平移、缩放和旋转等方法以实现对数据的保护。

Stanley R.M. Oliveira 先后提出通过几何变换和旋转变换(RBT)来变换数据的方法。后一种方法解决了前一种方法对维数的限制。

RBT 算法首先要将数据视为m 行n 列的矩阵D,行数据为数据记录,列数据表示属性,并定义一个变换矩阵:R=θθθ

θcos sin sin cos ?,随后进行数据规范化,数据匿名化,数据变换。其中数据变换主要是以下三步:1、将数据集D 的属性任意两两配对,设S ij =

Aj

Ai

为任意一对属性对,其中Ai 和Aj 分别表示D 的第i 列和第j 列数据的转置所组成行矩阵。属性

个数n 为偶数时,组成2n

对,n 为奇数时,组成21n +对属性

对。令S ij ′=R·S ij =

'Aj '

Ai ,其中'Ai 和'Aj 分别表示数据'D 第

i 列和第j 列数据的转置所组成的行矩阵;2、预先给定两个均大于0的阈值α1和α2,求解θ的范围θ1≦θ≦θ2,使得θ满足D(Ai-'Ai )≧α1,D(Aj-'Aj )≧α2;3、θ随机取[θ1,θ2]中的一个值,重新计算S ij ′=R·S ij 。依次计算每一对属性值对,最终得到变换后的数据D′。

此算法是基于旋转变换的等距变换,因此在变换前后挖掘结果相同。但是因为旋转角度θ旋转范围是根据要求的最低的隐私保护度来确定的,所以当对隐私保护的要求较高时,算法有可能无法取得合适的旋转角度。

(2) 分类的隐私保护

Chang Li Wu,Moskowitz I S.提出了吝啬降级法。其中降级是指从敏感级或隐私级降低到可以公布级即低级别。算法通过产生一个称之为参变量基础集的方法来实现数据的降级。用参数θ∈[0,1]来取代敏感数据。同时对于降级前和

降级后的数据值的熵进行计算,是二者的差值同数据库变化前后置信度的降低程度比较,从而得出这种对数据库的修改是否是可以接受的,也即是否对数据库的影响是最小的。

(3) 重构技术

重构技术主要分为数值型数据的重构技术以及二进制数据与分类数据的重构技术。对于数值型数据的重构典型的方法是Rakesh Agrawal 的数据离散化方法与值变形方法,通过添加随机偏移量来修改原始数据,然后用重构原始数据的分布;对于二进制数据与分类数据的重构技术,Alexandre Evfimievski 利用了统一随机化技术对部分数据进行修改的关联规则算法。即将一个交易发送给服务器前,客户端取走每一个项时将以概率p 替换为原先在交易中没有的新项,S.J.Riziv 等人利用贝努力概率模型提出了一种成为MASK 的算法。其使用的数据库是固定长度的0,1序列组成的,算法对所有原始数据按照贝努力概型进行变换,即设原始数据为X={Xi},Xi=0或1,使用变换函数Y=distort (X),其中Yi=Xi Xor i r ,ri 是服从贝努力分布的一个随机变量,即取1的概率为p,取0的概率为1-p。但是此算法对数据变换耗费的时间和空间较大。

2.分布式数据分布 (1)数据垂直分布

垂直分布数据,数据是按属性分布在各个站点,在此条件下可以通过发现项集的支持计数来进行数据挖掘。因此,如果数据的某个项集的支持计数可以被安全地计算,则通过检查计数和预先设定的阈值比较,就可以知道该项集是否是频繁项集。Jaideep Vaidya 提出了一种不向对方公布向量的计算标量积的方法。其依据是一个n 元线性方程组,方程组的个数小于n,那么结果是不确定的。通过这样的方法可以达到保护隐私的目的,还能保证各方只能得到全局的频繁项集和关联规则。对各站点将其拥有的属性构成一个n 维系数矩阵,通过产生随机的n 个数R1,R2,…,Rn,使之与其拥有的属性线性组合,通过交换计算结果得到规则。

(2)数据水平分布

数据水平分布是数据按着记录分布在各个站点,对其进行隐私保护,就是要各个站点在不必知道其他站点的具体记录信息的情况下就可以计算出全局的关联规则。针对各参与方既想联合进行数据挖掘又不愿意泄漏各自的信息,由此产生了半可信第三方,即遵守事先约定的协议,合作的多方只向第三方发送和接收数据,第三方对这些数据进行计算,并将最终结果传给合作的各方。

(四)算法的评估

目前还没有一个能针对各种数据集,各种挖掘算法的有效的隐私保护策略,当前算法都是针对特定的数据集,特定的挖掘算法研究设计的,对于在什么情况下用什么样的算法应该从以下几点考虑:

1.保密性

方法研究的是对数据挖掘的隐私保护,首要考虑的是对隐私数据保密的程度。目前的算法中不能保证做到完全保密,每个算法的保密性都是有限的,根据不同的保密需要选择不同的隐私保护方法;

2.挖掘效果

指对隐私数据进行处理后,数据挖掘的结果是否可用。若经过处理后,得到的数据挖掘的结果是错误的,或者不能反映真实的情况,那么原来的数据失去了价值,挖掘做了无用功,相应的隐私保护处理也就失去了意义。因此在考虑保密性的同时,数据挖掘的结果还要相对准确;

3.算法复杂度

算法复杂度是衡量所有算法的一个标准,当然对于隐私保护也不例外。在考虑算法的有用性的基础上也要考虑算法的可行性,应使算法的复杂度尽可能的低,这是在设计方法时的一个重要目标。 (下转第28页)

对应的列出所需的WBS方法造价控制分析表输入Excel 表格。列出各个层级(其工序名称、计划造价、预计、实际造价),输入出核算单元、各控制单元的造价投资额,并用Excel 表格进行计算,通过对表进行分析,可以方便的看出各项施工内容或各层级的造价的变化情况。在进行造价控制时可以与主体工程的投标工程清单中分部分项工程作为控制单元,也可以与项目中各个单体作为控制单元进行原预算造价与实际发行造价对比,下一级控制单元的变化必然会引起上一级控制单元的变更,掌握控制单元造价在施工过程中变化情况,从而对造价进行合理控制。

3.在施工过程造价管理中结合Excel表格使用WBS分析方法,应注意如下问题:

(1)WBS分解前应认真研究招标文件和合同,了解施工项目的工程范围和任务;

(2)应根据施工方案的要求进行项目分解,特别是施工布置和施工流程;

(3)分解中应要结合责任体系和任务的落实,应把握各责任人的管理深度;

(4)各控制单位的描述要详细、准确;

(5)编码要容易识别,尽量用字母,少用数字。编码在整个计划和控制中极为重要,大量的数据汇集、统计、信息查询都是通过编码实现。在项目开始初应专门进行编码设计;

(6)在输入计算软件Excel表格时每个细项按照合同清单价格确定造价值要准确,要与WBS分解的控制单元相对应,不可以漏项。对于简略的项目可以合并到相应的细项中,但造价值也必须合计到该项中。

(四)结合计算机软件的WBS造价分析方法优越性

1.使各细目、工序、项目的造价变化更为直观

列出各个层级(其工序名称、计划造价、实际造价),每个细项按照合同清单价格确定造价值,细化到每个工作包都输入有造价值,输入Excel表格后得出各核算、控制单元的造价投资,并用Excel表格进行计算,通过对表内数据进行分析,可以知道原投资与预计投资或实际投资发生的变化,能方便的、直观的看出各项施工内容细目、工序、控制单元或各层级的实际或预计的造价变化情况。

2.更方便的实施动态管理

利用WBS结合现代先进的计算机技术实现项目造价控制,各控制单元或细化的工作包的造价能随着施工过程中发生的造价变化而变化,并及时记录下来,有利于让项目管理者对造价实施动态管理。

3.分析更加快捷有效

将施工阶段的投资变化输入对应的细目、控制单元的造价单元格中,借助按WBS方法建立的计算机电子表格对进行造价分析,各控制单元的造价投资变化立即可以从表格中对应单元格数据中反应出来,使建设项目造价管理分析变的更加快捷有效。

4.分析选择更加灵活

在输入计算软件Excel表格时对于简略的项目可以合并到相应的细项中,并将造价值合计到该项中。也可以将核算单元尽可能的细化后分析。各核算单元也可能视做控制单元进行投资变化分析。造价管理人员能非常灵活的选择做控制单元或核算单元的工作包,按自身工作的要求灵活的进行造价分析。

5.更利于信息的集中存储、处理

借助计算机电子表格对WBS进行造价分析,将大量的数据信息进行分类、整理,方便历史数据和信息的收集、存储,但易于施工过程中的数据提取处理,也方便为将来的类似工程提供详实的信息、资料。

但是要注意不管是任何方法都不是万能的,受WBS编码的扩展性、计算机录入水平、管理人员知识能力限制、执行能力等诸多环节的影响,在WBS建立、编写计算机录入程序过程中业主也要进行不断改进,不断对已执行的WBS架构和计算机分析程序进行调整,以适应项目动态发展的需要。

使用借助计算机平台的WBS造价管理方法虽不能直接对造价进行控制,但其利用现代先进的计算机技术建立起一个广泛的信息平台,使项目实施过程能得到直观有效的量化分析,实行更细化的动态管理,分析可以选择在事前也可以在事后,即发现某一方面的预计将要出现造价偏差,则应将该部分造价偏差问题单独提出,及时将发现的造价变化情况反馈给各相关部门,及时针对投资变化的原因研究控制的对策,做进一步分析,对造价采取措施进行控制。或对已发生的造价控制问题进行分清责任,汲取宝贵经验,即分析不是目的,分析的目的只是为了方便进行下一步的控制。

【参考文献】

[1] 江萍,成虎.施工项目结构WBS分解方法及准则研究[J].东

南大学学报,2000(4):32.

(上接第21页)

(五)结束语

本文从数据分布的角度介绍、分析了数据挖掘隐私保护的几种算法,每类隐私保护技术都有不同的特点,在不同的需求下各个技术的应用范围不同,但是没有一个可以通用的算法,算法的可扩展性不强,各个算法的各项性能也不是都很好,所以接下来寻找通用的算法,和改进算法的各方面性能是需要进一步研究的。

【参考文献】

[1] 刘颖.数据挖掘领域的信息安全问题_隐私保护技术浅析[J].

计算机安全.2007,7.

[2] 陈晓明,李军怀,等.隐私保护数据挖掘算法综述[J].计算机

科学.2007,Vol.34 No.6.

[3] 陈芸,张伟.隐私保护数据挖掘方法的研究[J].微计算机信

息,2006,Vol.22 No.73.

[4] Vassilios S.Verykios,Elisa Bertino,Igor Nai

Fovino,Loredana Parasiliti Provenza,Yucel Saygin,Yannis Theodoridis.State of the art in Privacy Presserving Data Mining[A].ACM SIGMO Record[C],March 2004,Vol.33,No.1.

[5] Chang Li Wu,Moskowitz I S..Parsimonious downgrading and

decisions trees applied to the inference problem.

In:Proceedings of the 1998 New Security Paradigms Workshop,1998.82-89.

- 28 -

国外个人信息保护或隐私保护法规汇总

国外在企业收集、利用公众信息方面的 政策、措施、规定、法规。 一、美国 1.《隐私权法》 1974 年12 月31 日, 美国参众两院通过了《隐私权法》(Privacy Act)1, 1979 年, 美国第96届国会修订《联邦行政程序法》时将其编入《美国法典》。该法又称《私生活秘密法》, 是美国行政法中保护公民隐私权和了解权的一项重要法律。就“行政机关”对个人信息的采集、使用、公开和保密问题作出详细规定, 以此规范联邦政府处理个人信息的行为, 平衡公共利益与个人隐私权之间的矛盾。2该法中的“行政机关”, 包括联邦政府的行政各部、军事部门、政府公司、政府控制的公司, 以及行政部门的其他机构, 包括总统执行机构在内。该法也适用于不受总统控制的独立行政机关, 但国会、隶属于国会的机关和法院、州和地方政府的行政机关不适用该法。该法中的“记录”, 是指包含在某一记录系统中的个人记录。个人记录是指“行政机关根据公民的姓名或其他标识而记载的一项或一组信息”。其中, “其他标识”包括别名、相片、指纹、音纹、社会保障号码、护照号码、汽车执照号码, 以及其他一切能够用于识别某一特定个人的标识。个人记录涉及教育、经济活动、医疗史、工作履历以及其他一切关于个人情况的记载。 《隐私权法》规定了行政机关“记录”的收集、登记、公开、保存等方面应遵守的准则。 2.《电子通讯隐私法》 到目前为止,美国并没有一部综合性法典对个人信息的隐私权提供保护,主2摘自《情报科学》,周健:美国《隐私权法》与公民个人信息保护

要依靠联邦和州政府制定的各种类型的隐私和安全条例。其中最为重要的条例是1986 年颁布的《电子通讯隐私法》(The Electronic Communication Privacy Act,简称ECPA)3。 尽管《电子通讯隐私法》还存在不足,但它是目前有关保护网络上的个人信息最全面的一部数据保护立法。《电子通讯隐私法》涵盖了声音通讯、文本和数字化形象的传输等所有形式的数字化通讯,它不仅禁止政府部门未经授权的窃听,而且禁止所有个人和企业对通讯内容的窃听,同时还禁止对存贮于电脑系统中的通讯信息未经授权的访问及对传输中的信息未经授权的拦截。 3.《金融服务现代化法案》 Financial Services Modernization Act of 1999,也就是格雷姆-里奇-比利雷法(Gramm-Leach-Bliley Act,GLB Act)4,它规定了金融机构处理个人私密信息的方式。这部法案包括三部分:金融秘密规则(Financial Privacy Rule),它管理私密金融信息的收集和公开;安全维护规则(Safeguards Rule),它规定金融机构必须实行安全计划来保护这些信息;借口防备规定(Pretexting provisions),它禁止使用借口的行为(使用虚假的借口来访问私密信息)。这部法律还要求金融机构给顾客一个书面的保密协议,以说明他们的信息共享机制。 4、《儿童在线隐私权保护法案》 The Children’s Online Privacy Protection Act,,简称COPPA5,它规定网站经营者必须向父母提供隐私权保护政策的通知,以儿童为目标的网站必须在网站主页上或是从儿童处收集信息的每一网页上提供链接连接到此通知。它还详细规定了网站对13 岁以下儿童个人信息的收集和处理。 3摘自

数据挖掘在社交网络中的隐私保护

数据挖掘在社交网络中的隐私保护 唐伟晨(学号:111220114) (南京大学计算机科学与技术系, 南京210093) Privacy-Preserving Data Mining in Online Communities Weichen Tang (Department of Computer Science and Technology, Nanjing University, Nanjing 210093, China) Abstract: Online communities are the most dense area of individual privacy. With the rapid development of online communities, the number of privacy-disclosure problems has been increasing. This article shows the privacy-preserving data mining technology, including how to preserve privacy, the challenges we face and the benefits of privacy-preserving data mining in online communities. Key words: data mining; social networks; privacy protection 摘要: 在线社区是网络中个人隐私最为密集的区域。在线社区的飞速发展的同时,隐私泄露的问题也日益增多。本文介绍隐私保护数据挖掘技术,包括隐私保护的方法、面临的挑战以及实现在社交网络中隐私保护的数据挖掘的优势。 关键词: 数据挖掘;社交网络;隐私保护 中图法分类号: TP301文献标识码: A 1 引言 近年来在线社区发展迅速,规模越来越大。截至2013年底我国微博用户为2.81亿,人人网注册用户2.8亿,还有许多大型论坛、企业社区、地方社区等等。可见在线社区用户规模庞大,可想而知在线社区中的数据规模也是十分庞大的。庞大的数据,又有各种应用数据挖掘技术的工具对这些数据进行着分析,就会很自然地引发关于隐私方面的争论。由于对数据挖掘技术的不了解,很多人都在批判将数据挖掘应用于在线社区等隐私集中的区域。本文将介绍数据挖掘是如何在发挥自身长处的同时保护用户隐私的。 2 背景介绍 1. 在线社区简介 在线社区是建立在网络上的虚拟社区。用户通过注册来使用在线社区的扩展功能。在线社区既可以是互不相识的人们之前的交友平台,也可以是早已认识的两人的联络途径。在线社区的主要分类有两种,一种是所有人都可以在其中发布信息的,例如微博、BBS等,另一种则是拥有一定权限的人才可以在其中发布信息,例如博客,人人网个人主页等。 2. 数据挖掘的隐私和安全 随着数据挖掘的广泛应用,人们越来越多担心如此大规模的应用数据挖掘,可能会对自己的隐私造成侵

网络营销与个人隐私保护

网络营销与个人隐私保护 要求用户公开个人信息越多,或者是用户关注程度越高的信息,参与的用户将越少,为了获得必要的用户数量,同时又获取有价值的用户信息,需要在对信息量和信息受关注程度进行权衡,尽可能降低涉及用户个人隐私的程度,同时尽量减少不必要的信息。 互联网上个人隐私遭到侵犯的事件时有发生,最严重的情形,包括信用卡信息被盗用,造成直接经济损失,或者家庭信息联系被人利用,受到骚扰甚至被骗,造成人身伤害等等。当然,在大多数情况下,并没有这么 严重,只是个人信息被企业用于开展各种营销活动,这是一种普遍的现象,几乎每时每刻都在发生。 最近看到国外一个网络营销专栏作家的文章,由于他几乎在每篇文章中都留下了自己的Email地址,以便和读者交流,结果现在每天收到数百封垃圾邮件,2002年7月份每天接收的垃圾邮件是一年前同期的6.5倍!笔者也有同样的感受,在网上营销新观察网页上公布的服务邮箱中每天同样收到大量的垃圾邮件,并且一天比一天多,很显然,这些电子邮件地址被一些非法用户所收集,然后出售或者发送商业广告。这些邮件地址一旦被垃圾邮件数据库收录,必定要影响正常的通信,每天花费在处理垃圾邮件上的时间将越来越多,同时真正有效的信息则可能被淹没或者误删。电子邮箱地址被他人任意使用便是典

型的用户个人信息被侵犯的例子,当然用户关心的个人隐私远不止Email地址一项内容。 个人信息在营销中的作用 .... 网络营销的特点之一是可以有针对性地开展个性化营销,其前提是对用户信息有一定的了解,比如姓名、职业、爱好、电子邮件地址等等,但是,并不是每个人都愿意提供详尽的个人信息,对用户信息了解越少,个性化服务的效果也越低。以Email营销为例,我们可以对比两种情况: (1)发信人对收件人信息不了解,邮件的开头可能是是:亲爱的用户:本站新到一批电子商务系列书籍,如果您有兴趣的话…… (2)当发件人明确知道收信人的信息时,邮件内同可能是另一种情形:亲爱的冯先生:感谢你在3个月前惠顾本站并购买《电子商务原理》一书,该书的作者最近又推出了…… 如果你是邮件接收者,对此两种情况,你是不是觉得在邮件中提到你自己的名字会更加亲切和可信呢?大多数情况下,第2种邮件会得到更好的回应,但其前提是用户愿意向该网站提供有关个人信息并愿意接受商品推广邮件。为了制订有效的营销策路,营销人员期望掌握尽可能多的用户信息,但是,商家过多获取用户的个人

隐私保护数据挖掘系统的设计与实现

隐私保护数据挖掘系统的设计与实现摘要:随着网络安全问题受到越来越多的关注,隐私保护数据挖掘问题已经成为数据挖掘领域中的研究热点。该文设计与实现了一个隐私保护数据挖掘系统,系统的算法可以帮助用户完成一些简单的隐私保护数据挖掘工作。在实际系统应用中,用户可以根据实际需要加入新的算法来完成隐私保护数据挖掘工作。 关键词:隐私保护;数据挖掘;数据变换Privacy Data Mining System Design and Implementation ZHONG Yi, CHEN Zhi-bin (Guangzhou Municipal Education Information Center, Guangzhou 510030, China) Abstract: With the network security issues are more and more attention, privacy preserving data mining data mining has become a hot area of research. In this paper the design and implementation of a privacy preserving data mining system, the system's algorithms can help users to complete simple privacy preserving data mining work. In actual system applications, the actual needs of the user can add new algorithms to complete the work of privacy preserving data mining. Key words: privacy protection; data mining; data transformation 在信息时代,各种信息狂轰滥炸,人们在面临更多信息的同时,在浩瀚无垠的信息海洋面前,面临艰难的选择。互联网中快速增长的信息与数据背后隐藏着众多人们所不知的知识,因此,人们都希望通过对这些数据进行深入的分析,找出这些信息内部存在的关系和规则,将数据变为对自己有用的信息,成为真正的财富。数据挖掘技术的出现使得这些变成可能。数据挖掘技术是对大量的数据进行处理,从中提取和挖掘有趣知识的有效手段。数据挖掘可以使用户准确、及时地得到所需要的信息。但凡事都有两面性,数据挖掘能够产生财富的同时,信息安全与个人隐私问题成为一个严峻的问题。 1 系统需求分析 隐私保护数据挖掘系统是一个应用于集中式数据的隐私保护数据挖掘的工具软件。系统整体包括两个独立运行的子系统:隐私保护与数据挖掘子系统。系统主要分两步完成隐私保护数据挖掘工作,如图1所示。 关系数据库中的数据表是系统的处理对象。其中,隐私保护子系统对需要保护隐私的数据表进行隐私保护,得到隐私保护输出表,并保存到数据库。输出表包含多个配套的辅助信息表和一个经隐私保护后得到的改造后的新数据表。数据挖掘子系统根据辅助信息表对新数据表进行数据挖掘,得到数据挖掘结果。 1.1 隐私保护子系统需求分析 隐私保护子系统的需求分析如下: 1)执行算法 系统执行用户预先设定好的隐私保护算法,并将隐私保护输出表保存到数据库中。 2)指定需要保护隐私的数据表(以下简称原表)输入数据库 用户根据系统界面提示,指定原表输入数据库并建立连接。 3)选择原表 系统中显示原数据库中的数据表,用户从数据表中选出原表。如果找不到原表,用户可以返回,重新指定输入数据库。 4)设定算法

社交网络数据隐私保护技术综述

社交网络数据隐私保护技术综述 孙悦 (三峡大学计算机与信息学院,湖北宜昌443000) 摘要:近年来,社交网络发展非常迅速,层出不穷的社交应用给用户带来了全方位的服务模式,人们在享受便利的同时也面临着数据泄露的风险。因此社交网络的数据隐私保护具有很大的研究意义。文章对社交网络隐私保护技术发展现状进行分类概括。 关键词:社交网络;隐私保护 中图分类号:TP393文献标识码:A文章编号:1673-1131(2019)01-0180-02 0引言 随着移动互联网的飞速发展,各种移动通讯应用和社交网络也日趋流行,社交已经不仅仅局限于以交友为目的的行为了,游戏社交,购物社交等社交形式的多样化也使社交数据爆发性增长,但是数据泄露的事故也比比皆是。国外最大的社交平台Facebook曾多次被曝信息泄露,今年十月,谷歌也因信息泄露事件宣布将收紧数据分析政策。如何对用户的社交信息中的敏感信息有效的保护起来还有很大的发展空间。本文针对不同的数据类型的隐私保护技术发展来进行分类总结。 社交网络数据的隐私保护是针对原始的网络数据进行一些人为操作,如增删或修改一部分,使攻击者无法获取用户的敏感信息,避免信息泄露。只有进行处理后的数据才能对外公布,当然在保护用户的敏感信息的同时使处理后的信息仍具有一定的可用性也是衡量数据匿名的一个重要因素。1关系型数据 目前针对关系型数据的隐私保护研究已经取得了很多成果。2002年Sweeney L[1]等人首次提出k-匿名模型。k-匿名的主要思想是使集合中每一个元素都有至少其他k-1个元素与之相似,这样精准地确定某一个元素的概率都小于1/k。但是k-匿名存在对敏感信息没有进行限制的缺陷,无法抵御同质攻击以及背景知识攻击。因此Machanavajjhala[2]等人提出l-多样性模型,针对敏感信息进行隐私保护,该模型使数据集匿名组中的元素每一个敏感属性值都有其他至少l-1个与之相似。从而使敏感信息泄露的概率小于1/l。随后Ninghui Li[3]等人针对相似性攻击提出了t-Closeness模型。 此外,针对关系型数据的隐私保护也常采用聚类的方法,将聚类和其他的匿名手段结合起来,使数据能够抵御不同类型的攻击。如基于聚类的k-匿名技术[4],基于聚类的l-多样性技术[5]。 2图结构数据 相比较关系型数据,图结构数据的隐私保护研究更有难度。因为关系型数据中的记录是独立存在的,相互之间没有联系,而对于图结构数据,不仅要考虑数据本身的语义信息,还要考虑用户之间的相关性和结构信息,其次很难对攻击者已知的辅助信息进行建模。因此,关系数据的匿名化技术不能直接套用在图数据的隐私保护方案中,研究人员针对此图结构设计了有效地保护手段。 2.1基于k-匿名的保护方案 k-匿名技术已被广泛应用于匿名化关系数据中,在图数据的隐私保护中很多研究者仍然引用k-匿名的技术思想将其拓展应用于图数据中。Zhou和Pei[6]提出k-近邻匿名,该方法将所有结点具有相似邻居结点(一跳邻居结点)提取出来编码并且分在同一组内,直到每个组至少有k个结点组成。然后将每个组匿名化使得同一组内的任何结点都有至少k-1个同构邻居结点,该方法能够有效地抵御邻域攻击。Liu和Terzi[7]针对度攻击提出了k-度匿名算法,使图中每个结点都有其他至少k-1个结点与其度数相同。该方法首先构造一个k-度匿名序列,根据该序列构建匿名图,然后将匿名图与原图进行匹配调整边,使图结构的数据可用性最大化。Zou[8]等人同时考虑到领域攻击、度攻击、子图攻击等多种攻击方式,为了能够同时抵御这些攻击,他们提出k-自同构,使得图中每个结点都有其他k-1个对称的结点,此外他们提出了图分割,块对齐和边缘复制三种技术手段用于实现k-自同构。随后Cheng[9]等人提出与之有些相似的k-同构,用于抵御结构攻击,k-同构是将一个图划分并匿名成k个不相交的子图,使得所有的子图都是同构的。Yuan[10]等人从语义和结构信息的角度分析研究,针对语义和结构上设计了不同的技术来实现图结构的k-匿名。 2.2差分隐私保护方案 为了解决大多数以匿名为基础的隐私保护模型由于均需特定的知识背景而不能对隐私保护的强度进行量化分析的局限性,Dwork[11]等人提出差分隐私模型,该模型是通过对数据添加随机噪声使数据失真,从而隐藏用户的敏感信息,使攻击者无法精准识别某一条记录。随后提高发布统计数据的可用 号质量的影响在可接受范围内。该模块经过测试验证后表明该种设计能够满足信号质量要求,满足系统对于数据处理和数据存储单元的使用要求。 参考文献: [1]Serial ATA International Organization.Serial ATA Re- vision2.0[S].USA,2005.08.[2]Krishma S K,Bhat M S.Minimization of via-induced signal reflection in on-chip high speed interconnect lines.Circuits, Sys-tems,and Signal Processing,2012,31(2):689. [3]Bockelman D E,Eisenstadt W https://www.wendangku.net/doc/e11832915.html,bined Differential and Common-Mode Scattering Parameters:Theory and Simulation[J].IEEE Trans.Microwave Theory and Techni-ques,1995,43: 1530-1539. 180

位置隐私保护技术研究

y信息疼术2017年第5期文章编号:1〇〇9 -2552(2017)05 -0060-04D O I:10. 13274/j. cnki. hdzj. 2017. 05. 014 位置隐私保护技术研究 宋立新\王新量2,梁红2,3,薛帅3,祝若鑫3 (1.西安测绘总站,西安710054; 2. 68029部队,兰州730000; 3.信息工程大学地理空间信息学院,郑州450052) 摘要:位置服务给人们的生活带来诸多便利的同时,也面临泄漏用户位置信息的危险,这为 他人实施不法行为提供了可乘之机。隐私问题已经成为位置服务以及研究人员的一个严峻的挑 战。解决隐私问题的关键是在保护个人信息的同时也要保证服务质量,需要在两者之间取得平 衡。文中综述了基于轨迹的隐私保护技术和基于位置的隐私保护技术的研究现状与进展,阐述 了基于位置和轨迹的隐私保护方法、类型、目标和挑战,分析了隐私保护技术存在的主要问题, 并对位置隐私保护技术的发展方向进行了探讨,为位置隐私保护的进一步研究提供参考。 关键词:L B S;轨迹;隐私保护 中图分类号:TP309 文献标识码:A Research on technology of location privacy protection SONG Li-xin1,WANG Xin-liang2,LIANG Hong2,3,XUE Shuai3,ZHU Ruo-xin3 (1. S tation of Surveying an d M a p p in g,X i’an 710054,C h in a; 2. 68029 T roop of P L A,L anzho u 730000,C h in a; 3. School of G eograph y Space In fo rm a tio n,In fo rm atio n E ngineering U n iv ersity,Z hengzhou 450052,C h in a) Abstract :Location service to our life brings a lo t o f convenience at the same tim e,user lo catio n in fo rm a tio n is also facin g the ris k o f le a ka g e,w h ich outlaw s im p lem e ntatio n o f w ro ng fu l act provides an o p p o rtu n ity.P riva cy issues have become a c ritic a l challenge fo r lo catio n - based services as w e ll as researchers.The key to solve the problem o f p riva cy is to protect personal in fo rm a tio n and to ensure the q u a lity o f s e rv ic e,and to achieve a balance between the tw o.th is paper review ed the present situa tion and research progres based on traje cto ry p riva cy pro te ction and based on lo catio n p riva cy p ro te c tio n,the paper expounds the based on the p o sitio n and traje cto ry o f the p riva cy p ro te ction m e th o d s,ty p e s,objectives and ch a lle n g e s,and probes in to the developm ent d ire c tio n o f lo catio n p riva cy p ro te c tio n,and the m ain problem s o f p riva cy p ro te ction are a n a lyze d,w h ich provides reference to the fu rth e r research o f lo catio n p riva cy p ro te c tio n. Key words:L B S;tra je c to ry;p riva cy prote ction 0引言 随着信息技术与通信技术的发展和移动设备的 普及,基于位置服务的移动地理信息系统取得了飞 速发展。位置服务(location-based s e rvice s,简称 L B S)给人们的生活带来极大的便利。如今,手机已 具备检测用户位置的功能,推动了基于位置的服务。不能否认L B S的优点,但人们在享受位置服务便利 的同时其隐私也面临着被侵犯的危险,严重限制了 位置服务技术的使用和发展。 用户在使用位置服务时,不希望自己的位置和个人信息遭到泄漏和滥用。例如,当用户的位置或 者轨迹信息泄漏时,攻击者会重新认证这个位置或 者轨迹属于哪个用户,然后,再将用户的个人信息泄 漏给其他人。恶意攻击者可以利用用户的个人信息 来攻击用户。位置隐私安全问题是L B S必须面对 的,这也是为什么要保证用户敏感信息的安全或者 收稿日期:2016 -04 -12 基金项目:国家自然科学基金资助项目(41271392,41401462);郑州市科技攻关项目(112PPTGY225) 作者简介:宋立新(1966 -),男,本科,研究方向为地理信息服务。 一60 —

大数据时代个人隐私保护策略

大数据时代个人隐私保护策略 大数据时代个人隐私保护策略 周军虎 摘要:大数据技术越来越深刻地影响着人们的生产生活方式,但与此同时,人们的个人隐私安全问题也日益严峻,甚至威胁到人们的人身安全和财产安全。因此,探析大数据背景下的个人隐私保护问题显得尤为迫切。 关键词:大数据个人隐私保护策略 随着信息技术的迅速发展和应用,大数据、云计算、人工智能等信息技术正越来越深刻地改变着人们的生产生活方式。无论是个人出行前的交通路线查询,还是网络平台购物,日常信息沟通,我们无时无刻不在享受着大数据带来的便利。然而,大数据所引起的个人隐私安全问题也越来越被人们关注。大数据时代,我们时刻暴漏在“第三只眼”下,我们访问各类网站所留下的个人数据信息被爬虫技术抓取并保存,用以分析我们的购物习惯、社交关系、个人活动轨迹等,这些一旦信息被非法机构和恶意分子利用,就会对我们正常的生产生活造成影响,甚至会威胁到个人人身安全和财产安全。 一、大数据时代个人隐私安全问题 (一)用户个人隐私保护意识不强 网络用户具有多重身份,既可能是个人隐私信息的拥有者,又可能是传播者。用户的个人隐私保护意识不强主要表现在三个方面。首先是有些用户随意在手机和电脑上浏览或点击非法网站,扫描商家二维码,通过非正规途径下载安装不正规软件,将病毒带到了个人电子设备中,被黑客攻击。其次是用户在微博、微信、QQ、论坛、推特等社交软件上随意公开个人照片、工作单位、联系方式和地址、社交朋友圈等信息,将个人信息泄露在了网络上。最后是有些用户随意转发和传播他人隐私信息,有意或无意地泄露了他人隐私信息,并被不发分子窃取、售卖,给他人的正常生产生活带来麻烦,甚至造成人身安全威胁或财产损失。 (二)互联网企业对个人隐私滥采滥用 就国内来说,互联网企业对个人隐私的滥采滥用主要表现在对个人信息进行过度采集。目前,几乎所有的APP软件都设置了很多访问权限,用户若要安装并使用,就必须对个人相册、邮箱、摄像机、通讯录以及地理位置等个人信息进行

大数据隐私保护技术之脱敏技术

大数据隐私保护技术之脱敏技术 数据安全是信息安全的重要一环。当前,对数据安全的防护手段包括对称/非对称加密、数据脱敏、同态加密、访问控制、安全审计和备份恢复等。他们对数据的保护各自有各自的特点和作用,今天我主要说数据脱敏这一防护手段。 作者:佚名来源:FreeBuf|2016-11-22 09:40 收藏 分享 前言 这几天学校开始选毕业设计,选到了数据脱敏系统设计的题目,在阅读了该方面的相关论文之后,感觉对大数据安全有了不少新的理解。 介绍 随着大数据时代的到来,大数据中蕴藏的巨大价值得以挖掘,同时也带来了隐私信息保护方面的难题,即如何在实现大数据高效共享的同时,保护敏感信息不被泄露。 数据安全是信息安全的重要一环。当前,对数据安全的防护手段包括对称/非对称加密、数据脱敏、同态加密、访问控制、安全审计和备份恢复等。他们对数据的保护各自有各自的特点和作用,今天我主要说数据脱敏这一防护手段。

许多组织在他们例行拷贝敏感数据或者常规生产数据到非生产环境中时会不经意的泄露信息。例如: 1.大部分公司将生产数据拷贝到测试和开发环境中来允许系统管理员来测试升级,更新和修复。 2.在商业上保持竞争力需要新的和改进后的功能。结果是应用程序的开发者需要一个环境仿真来测试新功能从而确保已经存在的功能没有被破坏。 3.零售商将各个销售点的销售数据与市场调查员分享,从而分析顾客们的购物模式。 4.药物或者医疗组织向调查员分享病人的数据来评估诊断效果和药物疗效。 结果他们拷贝到非生产环境中的数据就变成了黑客们的目标,非常容易被窃取或者泄露,从而造成难以挽回的损失。 数据脱敏就是对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号、卡号、客户号等个人信息都需要进行数据脱敏。 数据脱敏系统设计的难点 许多公司页考虑到了这种威胁并且马上着手来处理。简单的将敏感信息从非生产环境中移除看起来很容易,但是在很多方面还是很有挑战的。 首先遇到的问题就是如何识别敏感数据,敏感数据的定义是什么?有哪些依赖?应用程序是十分复杂并且完整的。知道敏感信息在哪并且知道哪些数据参考了这些敏感数据是非常困难的。 敏感信息字段的名称、敏感级别、字段类型、字段长度、赋值规范等内容在这一过程中明确,用于下面脱敏策略制定的依据。

大数据隐私保护技术之脱敏技术

大数据隐私保护技术之脱敏技术 数据安全就是信息安全得重要一环。当前,对数据安全得防护手段包括对称/非对称加密、数据脱敏、同态加密、访问控制、安全审计与备份恢复等。她们对数据得保护各自有各自得特点与作用,今天我主要说数据脱敏这一防护手段。 作者:佚名来源:FreeBuf|2016-11-22 09:40 收藏 分享 前言 这几天学校开始选毕业设计,选到了数据脱敏系统设计得题目,在阅读了该方面得相关论文之后,感觉对大数据安全有了不少新得理解。 介绍 随着大数据时代得到来,大数据中蕴藏得巨大价值得以挖掘,同时也带来了隐私信息保护方面得难题,即如何在实现大数据高效共享得同时,保护敏感信息不被泄露。

数据安全就是信息安全得重要一环。当前,对数据安全得防护手段包括对称/非对称加密、数据脱敏、同态加密、访问控制、安全审计与备份恢复等。她们对数据得保护各自有各自得特点与作用,今天我主要说数据脱敏这一防护手段。 许多组织在她们例行拷贝敏感数据或者常规生产数据到非生产环境中时会不经意得泄露信息。例如: 1、大部分公司将生产数据拷贝到测试与开发环境中来允许系统管理员来测试升级,更新与修复。 2、在商业上保持竞争力需要新得与改进后得功能。结果就是应用程序得开发者需要一个环境仿真来测试新功能从而确保已经存在得功能没有被破坏。 3、零售商将各个销售点得销售数据与市场调查员分享,从而分析顾客们得购物模式。 4、药物或者医疗组织向调查员分享病人得数据来评估诊断效果与药物疗效。 结果她们拷贝到非生产环境中得数据就变成了黑客们得目标,非常容易被窃取或者泄露,从而造成难以挽回得损失。 数据脱敏就就是对某些敏感信息通过脱敏规则进行数据得变形,实现敏感隐私数据得可靠保护。在涉及客户安全数据或者一些商业性敏感数据得情况下,在不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号、卡号、客户号等个人信息都需要进行数据脱敏。 数据脱敏系统设计得难点 许多公司页考虑到了这种威胁并且马上着手来处理。简单得将敏感信息从非生产环境中移除瞧起来很容易,但就是在很多方面还就是很有挑战得。 首先遇到得问题就就是如何识别敏感数据,敏感数据得定义就是什么?有哪些依赖?应用程序就是十分复杂并且完整得。知道敏感信息在哪并且知道哪些数据参考了这些敏感数据就是非常困难得。

物联网隐私保护问题讲课教案

物联网隐私保护问题

1、物联网的体系结构 目前人们对于物联网体系结构有一些不同的描述,但内涵基本相同。一般来说,可以把物联网的体系结构分为感知层、传输层、处理层和应用层四个部分,如表1所示 a)感知层的任务是全面感知外界信息,通过各种传感器节点获取各类数据,利用传感器网络或射频阅读器等网络和设备实现数据在感知层的汇聚和传输;b)传输层把感知层收集到的信息安全可靠地传输到信息处理层,传输层的功能主要通过网络基础设施实现,如移动通信网、卫星网、互联网等; c)处理层的任务是对传输层传输的信息进行相应的计算与处理,需要研究智能计算、并行计算、云计算和数据挖掘(da-ta mining)等多种关键技术; d)应用层是对智能处理后的信息的利用,是根据用户的需求建立相应的业务模型,运行相应的应用系统; 表1物联网体系结构 2、物联网隐私威胁 物联网的隐私威胁可以简单地分为两大类 a)基于数据的隐私威胁 数据隐私问题主要是指物联网中数据采集传输和处理等过程中的秘密信息泄露,从物联网体系结构来看,数据隐私问题主要集中在感知层和处理层,如感知层数据聚合、数据查询和RFID数据传输过程中的数据隐私泄露问题,处理层中进行各种数据计算时面临的隐私泄露问题数据隐私往往与数据安全密不

可分,因此一些数据隐私威胁可以通过数据安全的方法解决,只要保证了数据的机密性就能解决隐私泄露问题,但有些数据隐私问题则只能通过隐私保护的方法解决。 b)基于位置的隐私威胁 位置隐私是物联网隐私保护的重要内容,主要指物联网中各节点的位置隐私以及物联网在提供各种位置服务时面临的位置隐私泄露问题,具体包括RFID 阅读器位置隐私RFID用户位置隐私、传感器节点位置隐私以及基于位置服务中的位置隐私问题。 3、物联网隐私威胁分析 从前面的分析可以看出,物联网的隐私保护问题主要集中在感知层和处理层,下面将分别分析这两层所面临的隐私安全威胁。 (1)物联网感知层隐私安全分析 感知层的数据一般要经过信息感知、获取、汇聚、融合等处理流程,不仅要考虑信息采集过程中的隐私保护问题,还要考虑信息传送汇聚时的隐私安全。感知网络一般由传感器网络RFID技术、条码和二维码等设备组成,目前研究最多的是传感器网络和RFID系统。 a)RFID系统的隐私安全问题 RFID 技术的应用日益广泛,在制造、零售和物流等领域均显示出了强大的实用价值,但随之而来的是各种RFID的安全与隐私问题,主要表现在以下两个方面: 1)用户信息隐私安全 RFID 阅读器与 RFID 标签进行通信时,其通信内容包含了标签用户的个人隐私信息,当受到安全攻击时会造成用户隐私信息的泄

大数据隐私保护技术之脱敏技术

大数据隐私保护技术之脱敏 技术 -标准化文件发布号:(9456-EUATWK-MWUB-WUNN-INNUL-DDQTY-KII

大数据隐私保护技术之脱敏技术 数据安全是信息安全的重要一环。当前,对数据安全的防护手段包括对称/非对称加密、数据脱敏、同态加密、访问控制、安全审计和备份恢复等。他们对数据的保护各自有各自的特点和作用,今天我主要说数据脱敏这一防护手段。 作者:佚名来源:FreeBuf|2016-11-22 09:40 收藏 分享 前言 这几天学校开始选毕业设计,选到了数据脱敏系统设计的题目,在阅读了该方面的相关论文之后,感觉对大数据安全有了不少新的理解。 介绍 随着大数据时代的到来,大数据中蕴藏的巨大价值得以挖掘,同时也带来了隐私信息保护方面的难题,即如何在实现大数据高效共享的同时,保护敏感信息不被泄露。 数据安全是信息安全的重要一环。当前,对数据安全的防护手段包括对称/非对称加密、数据脱敏、同态加密、访问控制、安全审计和备份恢复等。他们对数据的保护各自有各自的特点和作用,今天我主要说数据脱敏这一防护手段。

许多组织在他们例行拷贝敏感数据或者常规生产数据到非生产环境中时会不经意的泄露信息。例如: 1.大部分公司将生产数据拷贝到测试和开发环境中来允许系统管理员来测试升级,更新和修复。 2.在商业上保持竞争力需要新的和改进后的功能。结果是应用程序的开发者需要一个环境仿真来测试新功能从而确保已经存在的功能没有被破坏。 3.零售商将各个销售点的销售数据与市场调查员分享,从而分析顾客们的购物模式。 4.药物或者医疗组织向调查员分享病人的数据来评估诊断效果和药物疗效。 结果他们拷贝到非生产环境中的数据就变成了黑客们的目标,非常容易被窃取或者泄露,从而造成难以挽回的损失。 数据脱敏就是对某些敏感信息通过脱敏规则进行数据的变形,实现敏感隐私数据的可靠保护。在涉及客户安全数据或者一些商业性敏感数据的情况下,在不违反系统规则条件下,对真实数据进行改造并提供测试使用,如身份证号、手机号、卡号、客户号等个人信息都需要进行数据脱敏。 数据脱敏系统设计的难点 许多公司页考虑到了这种威胁并且马上着手来处理。简单的将敏感信息从非生产环境中移除看起来很容易,但是在很多方面还是很有挑战的。 首先遇到的问题就是如何识别敏感数据,敏感数据的定义是什么有哪些依赖应用程序是十分复杂并且完整的。知道敏感信息在哪并且知道哪些数据参考了这些敏感数据是非常困难的。 敏感信息字段的名称、敏感级别、字段类型、字段长度、赋值规范等内容在这一过程中明确,用于下面脱敏策略制定的依据。

PINQ下K―means的差分隐私保护研究

PINQ下K―means的差分隐私保护研究 摘要:差分隐私保护是Dwork提出的基于数据失真技术的一种新的隐私保护模型,由于其克服了传统隐私保护需要背景知识假设和无法定量分析隐私保护水平的缺点,近年来迅速成为隐私保护领域研究热点。PINQ是最早实现差分隐私保护的交互型原型系统。介绍了差分隐私保护相关理论基础,分析了PINQ框架的实现机制。以PINQ中差分隐私保护下K-means聚类实现为例,研究了差分隐私在聚类中的应用。仿真实验表明,在不同的隐私预算下,实现的隐私保护级别也不同。 关键词:K-means;数据失真;差分隐私;PINQ DOIDOI:10.11907/rjdk.161175 中图分类号:TP309文献标识码:A文章编号:1672-7800(2016)006-0204-05 参考文献: [1]周水庚,李丰,陶宇飞,等.面向数据库应用的隐私保护研究综述[J]. 计算机学报,2009,32(5):847-861. [2]李杨,温雯,谢光强. 差分隐私保护研究综述[J].计算机应用研究,2012,29(9):3201-3205. [3]MCSHERRY F. Privacy integrated queries[C].In Proc. ACM SIGMOD International Conference on Management of Data,

2009. [4]MOHAN P,THAKURTA A,SHI E,et al. GUPT:privacy preserving data analysis made easy[C].Proceedings of the 2012 ACM SIGMOD International Conference on Management of Data. ACM,2012:349-360. [5]ROY I,SETTY S T V,KILZER A,et al. Airavat:security and privacy for mapreduce[J]. Usenix Org,2010:297-312. [6]DWORK C. A firm foundation for private data analysis[J]. Communications of the Acm,2011,54(1):86-95. [7]DWORK C,MCSHERRY F,NISSIM K,et al. Calibrating noise to sensitivity in private data analysis[M]. Theory of Cryptography,Springer Berlin Heidelberg,2006:265-284. [8]FRIEDMAN A,SCHUSTER A. Data mining with differential privacy[C].Acm Sigkdd International Conference on Knowledge Discovery & Data Mining,2010:493-502. [9]MCSHERRY F D. Privacy integrated queries:an extensible platform for privacy-preserving data analysis[J]. Proc,2011(1):26-30. [10]BLUM A,DWORK C,MCSHERRY F,et al. Practical privacy:the sulq framework[J]. In PODS ’05:Proceedings of the twenty-fourth ACM SIGMOD-SIGACT-SIGART symposium on Principles of database systems,2005(6):128-138.

物联网隐私保护问题

1、物联网的体系结构 目前人们对于物联网体系结构有一些不同的描述,但内涵基本相同。一般来说,可以把物联网的体系结构分为感知层、传输层、处理层和应用层四个部分,如表1所示 a)感知层的任务是全面感知外界信息,通过各种传感器节点获取各类数据,利用传感器网络或射频阅读器等网络和设备实现数据在感知层的汇聚和传输; b)传输层把感知层收集到的信息安全可靠地传输到信息处理层,传输层的功能主要通过网络基础设施实现,如移动通信网、卫星网、互联网等; c)处理层的任务是对传输层传输的信息进行相应的计算与处理,需要研究智能计算、并行计算、云计算和数据挖掘(da-ta mining)等多种关键技术; d)应用层是对智能处理后的信息的利用,是根据用户的需求建立相应的业务模型,运行相应的应用系统; 表1物联网体系结构 2、物联网隐私威胁 物联网的隐私威胁可以简单地分为两大类 a)基于数据的隐私威胁 数据隐私问题主要是指物联网中数据采集传输和处理等过程中的秘密信息泄露,从物联网体系结构来看,数据隐私问题主要集中在感知层和处理层,如感知层数据聚合、数据查询和RFID数据传输过程中的数据隐私泄露问题,处理层中进行各种数据计算时面临的隐私泄露问题数据隐私往往与数据安全密不可分,因此一些数据隐私威胁可以通过数据安全的方法解决,只要保证了数据的机密性就能解决隐私泄露问题,但有些数据隐私问题则只能通过隐私保护的方法解决。b)基于位置的隐私威胁 位置隐私是物联网隐私保护的重要内容,主要指物联网中各节点的位置隐私以及物联网在提供各种位置服务时面临的位置隐私泄露问题,具体包括RFID阅读器位置隐私RFID用户位置隐私、传感器节点位置隐私以及基于位置服务中的位置隐私问题。 3、物联网隐私威胁分析 从前面的分析可以看出,物联网的隐私保护问题主要集中在感知层和处理层,下面将分别分析这两层所面临的隐私安全威胁。 (1)物联网感知层隐私安全分析 感知层的数据一般要经过信息感知、获取、汇聚、融合等处理流程,不仅要考虑信息采集过程中的隐私保护问题,还要考虑信息传送汇聚时的隐私安全。感知网络一般由传感器网络RFID技术、条码和二维码等设备组成,目前研究最多的是传感器网络和RFID系统。

隐私保护制度

一、保护性医疗制度和保护患者隐私制度 患者具有隐私权,隐私权必须得到保护。保护患者隐私是临床伦理学尊重原则、有利原则和不伤害原则的体现和要求。由于,医护人员在疾病诊疗活动中所处的地位特殊,会主动或被动地了解患者的病史、症状、体征以及个人的习惯、嗜好等隐私秘密。因此,医护人员在执业活动中,有关心、爱护、尊重患者的义务和保护患者隐私的义务。 1、医护人员在实施诊疗过程中凡是涉及到患者的言语,可能对患者造成伤害,必须要执行保护性医疗,以免在患者面前谈论,以及在无关人员面前提及,造成不必要的伤害。 2、医护人员在查房时,可能对患者造成伤害的病情分析必须在病室外进行。 3、患者的隐私在诊疗过程中仅向医务人员公开,是不愿让他人知道的个人私有领域,医护人员有义务为其保守秘密,维护患者的各种利益,严格执行保护性医疗制度,不得以任何方式泄露患者隐私。 4、医护人员在为异性患者进行诊疗、护理过程中,必须有二人以上人员在场,并注意加强对患者的保护。 5、对于可造成患者精神伤害的疾病、生理上的缺陷、有损个人名誉的疾病等,要履行告知义务。在不违背保护性医疗制度的前提下,要注意尊重患者,不得歧视患者,在向患者和家属告知病情时,使用规范语言,特别要讲究语言艺术和效果。 二、保护患者隐私权工作制度 医院在开展人性化医疗服务过程中,要坚持“以人为本”的理念,一切制度、措施、执业行为均以病人的合理需要为根本,并最大限度地满足其治病以外的要求,使其拥有温馨感、亲情感和安全感,以便早日康复。为此,医院特制定患者隐私权工作制度: 1、医治病人要尊重患者的生命价值、人格尊严和个人隐私。 2、医院的服务理念要以“病人为中心”、以“健康为中心”,尊重其人格权和隐私权。 3、医务人员要做到语言文明、仪表文明、举止文明,保护患者的隐私权。 4、严禁医护人员对所掌握的患者的个人隐私进行披露、宣扬、威胁。 5,医疗人员由于职业的原因获知的患者隐私在法律上不得泄露和不当使用。6,与医疗不具有直接的联系,但需经过患者或其家属明示同意后医,院的其他医师或其他人员(如医院的见习生等)也可以了解与患者疾病有关的隐私。 7,医生由于自已职业的特点而获悉患者的病历和其他隐私负有不得泄露和公开的义务。 8,医生给妇女身体作检查时,按隐私保护制度执行。除了检查医生外,其他人

相关文档