本文是一篇计算机论文,计算机的应用领域从最初的军事科研应用扩展到社会的各个领域,已形成了规模巨大的计算机产业,带动了全球范围的技术进步,由此引发了深刻的社会变革,计算机已遍及一般学校、企事业单位,进入寻常百姓家,成为信息社会中必不可少的工具。(以上内容来自百度百科)今天为大家推荐一篇计算机论文,供大家参考。
第1章 绪 论
1.1 研究背景与意义
随着人类社会进入大数据的时代,人们的各类信息被政府部门、企业组织甚至个人收集[1],如医疗档案、社会调查、人口普查和商业数据等。这些海量的数据信息被用于进行数据挖掘和机器学习等研究[2],从而帮助政府制定相关政策或者企业创造商业价值,同时也为人们提供更加丰富、智能和便捷的生活方式。但是,大数据技术是一把锋利的双刃剑,当它在推动社会进步的同时,如果不能对其善加利用或者被恶意使用,则极有可能对人们的日常生活甚至整个社会造成非常巨大的危害[3]。不同于将数据的二进制信息进行加密的传统信息安全技术,在大数据时代的背景下,由于数据信息的内容形式以及收集、发布和传播的方式变得多样化,信息安全问题涉及的范围更加广泛,并且研究的内容也更加复杂和多样[4]。其中,人们的隐私安全问题一直是信息安全问题的研究核心之一[5-6]。在大数据技术的不断推动之下,各个行业和政府部门之间的信息壁障逐渐被打破。数据的交换和共享成为了信息交流中越来越重要的活动,但是,这些交流的数据中包含了大量个人隐私和敏感信息。如果这些数据在没有经过隐私保护处理之前就对外进行发布或者交换,会非常容易造成用户的隐私泄露[7-8]。例如,在2006 年,著名的因特网服务提供商美国在线(American Online)发布了一份 2GB的数据文件,其中包括了关于 65 万用户的约 2 千万个查询词条信息。尽管这份数据使用了随机数作为假名代替数据中用户的 ID,但是当数据发布之后,两名纽约时报的记者仍然通过数据中的信息准确地找到并且采访了其中的某位用户[9]。因此,当需要发布和使用涉及用户隐私信息的数据时,如何有效地保障用户的隐私安全是一个非常重要的问题。
.......
1.2 基本模型
在 1977 年,Dalenius 提出了一个比较严格的隐私保护定义[11]:攻击者无法从获得的数据中得到任何额外信息。而在文献[12-13]中指出,由于攻击者可以根据背景知识进行推理的原因,只有在不发布数据的情况下才能实现完美隐私。隐私保护数据发布技术兼顾了隐私安全性和信息可利用性,既可以满足数据中用户的隐私安全需求,又使匿名之后的数据可以满足数据接收者进行分析的需求。隐私保护数据发布的过程如图 1.1 所示。数据持有者首先收集和存储用户的数据信息,如网站数据、病例信息、薪水调查等,这些数据包含了人们大量的隐私信息。当收到外部机构的数据请求时,数据持有者将需要发布的原始数据进行一定程度的匿名处理,使得匿名之后的数据可以保证用户的隐私信息安全。最后,数据持有者将匿名之后的数据结果对数据接收者发布。隐私保护数据发布技术研究的匿名对象主要分为两种。第一种匿名对象为记录型数据,如表 1.1 所示,当需要将这种类型的数据信息对外发布时,数据发布者通常使用泛化[14]和桶[15]等匿名算法将数据表中的内容进行匿名之后再对外发布;第二种匿名对象是数据接收者向统计数据库发送查询语句之后得到的数据结果。在很多情况下,数据发布者仅向数据接收者开放了数据访问的查询接口,但是,攻击者仍然可以通过使用连续特定的查询语句攻击用户的隐私信息。因此,数据发布者还需要使用如满足差分隐私[16]的噪音算法,将数据接收者的查询结果加入一定程度的噪音,从而防止数据中用户的隐私信息泄露。
..........
第2章 隐私保护数据发布技术概述
2.1 匿名原则
匿名原则是指对数据表提出的匿名要求。当一个数据表满足了某一匿名原则的条件时,数据表就会具备相应的隐私保护能力。在本节中,我们将介绍一些比较重要的匿名原则。如果匿名数据表遵循 k-anonymity 匿名原则,当攻击者使用目标用户的 QI 信息进行匹配时至少会得到 k 个无法区分的匹配个体。例如,将表 1.1 中的标识符属性删除并且将 QI 值转化使其遵循 2-anonymity 匿名原则的结果,如表 2.1 所示。在表 2.1 中,攻击者使用任意个体的 QI 值进行匹配将至少得到两个无法区分的个体,因此,攻击者无法准确地获得目标用户在数据表中的个体标识。k-anonymity 匿名原则是目前隐私保护数据发布技术中应用最广泛的匿名原则,甚至在其他的安全领域中也发挥着重要作用。在不同的发布环境中,很多匿名原则在 k-anonymity 匿名原则的基础上被提出。例如,(X,Y)-anonymity 匿名原则[46]、多重关系的 k-anonymity 匿名原则[47](MultiRelational k-anonymity)和 -growth 匿名原则[48]等。
.......
2.2 匿名算法
匿名算法是为了使数据表满足匿名原则中的条件,对数据表进行匿名化的具体实现。但是,即使遵循相同的匿名原则,不同的匿名算法也会对数据表产生不同的匿名效果。接下来,我们将对主要的匿名算法进行介绍。泛化算法是匿名算法中最重要的算法,它通过将数据表中的 QI 属性值进行一定程度的泛化,即将具体的数据值转化为概括和抽象的形式,从而防止攻击者使用目标用户的 QI 值获取用户在数据表中的个体标识。对于数字类型的属性,数值将被转化为值域的类型,如将数值 24 转化为[10-30]。而对于分类类型的属性,数值将根据用户自定义的泛化层次树进行泛化。如根据图 2.1,可以将工程师泛化为专业人员。
........
第 3 章 用户身份和敏感属性的独立保护.....17
3.1 引言 .............17
3.2 交叉桶泛化算法模型 ......22
3.3 交叉桶泛化算法 ........26
3.4 实验分析 ...........33
3.5 本章小结 ...........40
第 4 章 个性化的隐私保护...........41
4.1 引言 .............41
4.2 局部分解算法模型 .......45
4.3 局部分解算法 .........49
4.4 实验分析 ...........52
4.5 扩展讨论 ...........58
4.6 本章小结 ...........60
第 5 章 局部分解泛化算法...........61
5.1 引言 .............61
5.2 局部分解泛化算法模型 .....65
5.3 局部分解泛化算法 .......68
5.4 实验分析 ...........74
5.5 本章小结 ...........88
第5章 局部分解泛化算法
5.1 引言
在第 4 章中,我们提出了一种基于个性化隐私保护需求的局部分解算法用于保护数据表中用户的敏感值。但是,由于局部分解算法缺乏泛化机制无法为用户身份提供保护,所以在隐私保护需求比较高的发布环境中,使用局部分解算法具有较高的隐私泄露风险。在本章中,我们仍然基于个性化隐私的保护需求,通过加入泛化机制使局部分解算法可以遵循 k-anonymity 匿名原则为数据表提供更加全面和安全的保护。
5.1.1 问题的提出
局部分解算法是一种轻量级的匿名算法,它仅将数据表中的敏感值在相应的属性下划分为桶,并且保留数据表中所有原始 QI 值。由此,局部分解算法使用了尽可能少的匿名操作来保护数据表中敏感值的安全。一方面,原始 QI 值极大地有利于保留数据表的信息可利用性。另一方面,攻击者可以更加容易地对匿名数据表进行攻击。因此,相对于数据的安全性,局部分解算法更加偏向于获得更多的信息可利用性。尽管局部分解算法具有非常优秀的灵活性和可扩展性。例如,在 4.5 节中,局部分解算法同时遵循了 l-diversity 和 t-closeness 匿名原则分别对不同的属性进行保护。但是,由于局部分解算法缺乏泛化机制,导致其无法对数据表中的QI 值进行泛化,所以局部分解算法仅能保障数据中敏感值的安全,却很难防止攻击者识别用户在数据表中的标识。
........
总结
本文主要研究了在隐私保护数据发布的过程中,当面对不同的匿名需求时提出适当的匿名算法为数据中的隐私信息提供可靠的保护并且尽可能地减少信息可利用性的损失,具体的主要研究工作如下:
(1)为用户身份和敏感属性提供相互独立的保护。通过结合泛化算法和桶算法的原理提出了交叉桶泛化算法,将数据表中的个体划分为等价组和桶,从而解决了当使用泛化算法对敏感属性进行保护时匿名数据表对用户身份产生过度保护的问题。并且,由于交叉桶泛化算法对用户身份和敏感属性的保护是相互独立的,所以交叉桶泛化算法可以根据实际匿名需求自由调整对用户身份和敏感属性的保护程度。#p#分页标题#e#
(2)定义个性化的隐私保护发布环境并为数据中的敏感值提供安全的保护。首先定义了个性化的隐私保护发布环境,并且将数据表中的属性划分为 QI 属性、半敏感属性和敏感属性;然后,基于桶算法的原理提出了局部分解算法,在每个包含敏感值的属性内将带有敏感值的个体划分为桶,从而保护数据表中所有的敏感值,并且,局部分解算法具有很高的灵活性,它可以根据不同的匿名需求和数据表中属性的特点,同时遵循不同的匿名原则对数据表中的敏感值进行保护。
(3)在个性化的隐私保护发布环境中为数据中的用户身份和敏感值提供安全的保护。通过将局部分解算法中加入泛化机制提出了局部分解泛化算法,将数据表中的个体根据携带 QI 值的情况划分为多个子集,然后在每个子集内将其中的个体划分为等价组,从而为用户身份提供独立的保护。此外,由于局部分解泛化算法对用户身份和敏感值的保护是相互独立的,所以使用不同的泛化机制不会降低对敏感值的保护效果。
..........
参考文献(略)