大数据中若干安全和隐私保护计算机问题研究

论文价格：免费
用途： ---
作者：上海论文网
点击次数：172
论文字数：0
论文编号：el2018061621403317168
日期：2018-06-12
来源：上海论文网

TAGS:

本文是一篇计算机论文，计算机论文方向的研究工作，一方面以多媒体图像信息处理的新理论、新方法和新技术为突破口，力图实现理论和技术上的源头创新；同时将“产、学、研”紧密结合，力求形成我国自主的知识产权，提高核心国际竞争力。（以上内容来自百度百科）今天为大家推荐一篇计算机论文，供大家参考。

第1章绪论

互联网技术的创新和数字设备的飞速发展推动人类社会进入大数据时代[1,2]。其应用包含云计算、云存储、企事业管理、物联网、社交网络、媒体应用、集体智慧以及网格计算等。数据规模、数据多样性呈爆炸式增长，人们通过数据挖掘等方法挖掘数据潜藏的巨大社会价值，供数据决策者跟踪社会发展进程、改进社会管理以及改变现有政策存在的缺陷等。随着众多数据安全事故和用户隐私泄露的曝光，人们在享受大数据带来便利的同时，也开始关注数据的安全性和隐私性。因此，大数据时代信息安全及隐私问题是一个亟待解决的问题。本文针对云存储、个人医疗、社交网络[3]、移动支付[4]等场景中存在的若干信息安全及隐私问题进行研究。一方面，通过提出相应的隐私保护模型及算法对数据安全和用户隐私进行保护；另一方面，通过用户的公开信息攻击其隐私信息，从而提醒用户公开哪些信息会造成隐私泄露。本章首先阐述本文的研究背景及意义；其次，概述大数据概念，包括定义、特征等；再者，对大数据时代存在的信息安全及隐私问题进行阐述；之后，概要讲述本文的研究内容和创新点；最后，列出本论文的结构安排。

1.1研究背景及意义

随着互联网的发展、计算机软硬件性能的不断提升，数字化信息正逐步代替传统纸质信息。数字化信息具有易保存、易检索等特点。自20世纪80年代以来，人均存储数字化信息的能力几乎每四十个月就翻一番[5]。到2003年为止，人类总共产生大约5艾字节（1018字节）的数据。截至2012年，世界的总数据大小达到2.72泽字节（1021字节）且用户每天产生大约2.5艾字节的数据[6]。据IDC预测可知，数据总量每两年翻一倍且在2025年将达到163泽字节（1021字节）[7]。下面，从云存储、个人医疗、社交网络以及移动支付等四个方面分别介绍数字化信息的增长趋势。在云计算盛行的时代，云存储作为其中一个重要分支而得到发展。云存储提供用户随时随地按需访问的数据存储和访问服务。不同云服务提供商或者科研院校不断发布新的存储服务，如：谷歌、微软、百度、亚马逊、Dropbox等公司都推出了相应的云存储服务；数据库方面的顶级学术会议SIGCOMM、FAST等也都持续关注云存储服务方面的研究成果；此外，中科院、CMU、MIT等科研单位也都持续更新其最新的云存储研究成果。

..........

1.2大数据相关概念、安全及隐私问题概述

本节首先介绍大数据定义及其特征。其次，介绍大数据时代不同应用场中存在的具体安全及隐私问题。

1.2.1大数据相关概念

从上世纪90年代至今，“大数据”这一概念的推广归功于John Mashey[12]。大数据通常是指传统数据处理软件无法在有效时间内抓取、管理以及处理的大数据集[13]。大数据的形式分为非结构化、半结构以及结构化。文献[14]指出非结构化数据占据了主导地位。另外，大数据的“规模”也在不断变化。从2012年开始，数据规模在TB至PB级的数据都可称为大数据[15]。公认的大数据定义为：“大数据代表具有大容量、高速度和多样性的信息资产，这些资产需要特定的技术和分析方法将其转化为价值”[16]。目前，科学家定义大数据拥有下面三个主要特征（即3个V）：Volume：：数百万的设备和应用（如：信息通信技术、智能手机、产品编码、社交网络、传感器、日志等等）产生大规模的数字化数据。依McAfee等人评估2012年每天产生的数据为2.5艾字节。2013年，由国际数据公司(一家发布研究报告的公司)估计，创建、复制和消费的总数字数据是4.4泽字节。该数据量每两年翻一倍。截至2015年数字数据增长为8泽字节。依据IDC报告，数据大小在2020年将达到40泽字节且比当前的数据增加400倍。Velocity：：数据以一种快速的方式产生，且应该从中以一种快速的方式提取有效的信息。例如，沃尔玛针对其顾客的交易记录每小时生成超过2.5PB的数据。此外，Youtube同样也是一个大数据快速增加的例子。Variety：：不同的数据源以多种格式生成大数据，如：视频、文档、评论、日志等。大型数据集由结构化和非结构化数据、公共或私有、本地或远程、共享或机密、完整或不完整等组成。

...........

第2章大数据中安全与隐私的研究进展以及基本概念介绍

本章主要围绕大数据中的安全与隐私相关工作以及基本概念展开。其中，安全与隐私相关工作研究分为：重复加密数据删除、可搜索加密、保序对称加密、数值数据的完整性验证技、图数据的完整性验证、社交网络用户位置猜测、社交网络用户其它隐私信息猜测等。其次，主要介绍常用的安全技术和隐私攻击技术，为后续工作的介绍提供预备知识和理论基础。

2.1相关工作研究进展

针对云存储应用场景中存在的安全问题，现有的方法主要是对用户的数据进行处理。由于传统加密技术使得相同数据经过不同密钥加密后会变成不同密文，而重复数据删除技术需要检查数据块是否重复，因此传统加密技术与重复数据删除技术存在应用冲突。为了解决上述应用冲突，学者们提出了重复加密数据删除技术。章节2.1.1对该技术的研究现状进行了讨论。针对云医疗数据外包过程中存在的安全问题，通常采用的方法是对数据加密之后再上传至云服务器。然而，加密过程会使得原始有序的明文变成无序的密文，从而使得数据搜索效率变得低下。为提高针对密文数据的搜索效率，学者们提出了可搜索加密技术和保序对称加密技术。章节2.1.2和2.1.3分别讨论了上述两种技术的研究现状。针对第三方实体不可信返回不完整数据问题，现有的方法主要是采用经典的查询数据完整性验证方案。章节2.1.4和2.1.5分别对数值数据的完整性验证和图数据的完整性验证方案的研究现状进行了讨论。此外，为了猜测用户的隐私信息（如：位置信息，兴趣爱好，年龄等），研究人员提出相应的隐私信息猜测技术。为此，章节2.1.6和2.1.7分别讨论了社交用户位置信息猜测技术和其它隐私信息猜测技术的研究现状。

...........

2.2相关安全技术介绍

本论文针对支持层次权限的重复数据删除、多源医疗数据的隐私保护查询、社交数据的可验证外包、Venmo用户位置猜测等进行了研究。其中主要技术包括：保序加密、双线性映射、布鲁姆过滤器、置信度传播等。保序对称加密(OPE)是一种确定性的加密方案，其加密功能保持明文的数字排序。保序加密方案(OPES)允许比较操作直接应用于加密数据，而无需解密操作数。因此，等值和范围查询以及MAX、MIN和COUNT查询都可以通过加密数据直接处理，也可以适用分组和排序操作，但无法直接应用与SUM或AVG等操作。OPES具有以下属性: 查询处理的结果是准确的。既不存在假阳性，也不存在假阴性。OPES能够处理更新。即可以修改元组中的值或者向元组中插入新元素，而无需改变其它元素的加密。由于OPES已经被设计与现有的索引结构（如B-树）相融合，所以OPES能够轻易的与现有数据库系统相融合。从而，对数据库进行加密可以对应用程序透明。

...........

第3章支持层次权限的重复数据删除研究 .....22

3.1引言 ...........22

3.2问题定义 .............24

3.2.1系统模型 ...........24

3.2.2攻击模型 ...........25

3.2.3设计目标 ...........25

3.3相关知识介绍 ......26

3.4基于层次权限的谓词加密概述(HPBPE)........... 27

3.5 HPBPE方案的具体说明及分析 ............29

3.6支持动态权限的基于层次权限的谓词加密(HPBPE-R)...........33

3.7实验部分 .............35

3.7.1实验环境配置 ....36

3.7.2实验结果 ...........36

3.8小结 ...........38

第4章多源医疗数据的隐私保护查询研究 .....39

4.1引言 ...........39

4.2问题定义 .............41

4.3多源加密索引合并机制 .....42

4.4支持层次授权的多源加密索引合并机制 ...........49

4.5性能分析 .............52

4.6安全分析 .............53

4.7实验部分 .............55

4.8小结 ...........58

第5章社交数据的可验证外包研究 ...........59#p#分页标题#e#

5.1引言 ...........59

5.2问题定义 .............61

5.3可验证社交数据外包的基本方案 .............62

5.4可验证社交数据外包的改进方案 .............66

5.5可验证社交数据外包的高级方案 .............67

5.6安全及性能分析 ...........68

5.7实验部分 .............70

5.8小结 ...........73

第6章Venmo用户位置猜测研究

移动支付apps正在全球范围内被广泛使用。本章主要针对一种非常流行的由Paypal公司拥有的P2P支付服务Venmo进行用户位置隐私猜测研究。该app允许用户相互之间转钱并强制附带一个交易说明。调查发现，Venmo中超过半数的交易记录是公开信息。本章提出了一种多层位置猜测（MLLI）技术，从Venmo的公共交易记录中猜测Venmo用户的位置信息。MLLI技术主要基于两种观察：（1）Venmo交易说明包含一些隐藏的位置线索；（2）用户的交易形式和时间模式与用户的位置具有强关联性。通过拥有2.12M用户和20.23M Venmo交易记录的大数据集，实验表明MLLI能够以50%，80%和90%的精度识别Venmo用户的位置在top-1，top-3和top-5可能位置中。实验结果表明在Venmo或者类似的移动支付Apps上公开交易记录是非常危险的。

6.1引言

不同于传统支付APP和社交APP，Venmo是一款不仅支持社交活动而且支持在线支付的APP。一方面，Venmo用户可以像在Facebook或者类似的社交网络中彼此交朋友；另一方面，Venmo用户可以通过电话号码、Venmo用户名字或者邮件地址进行转账处理并附加一条交易说明。该说明可以是文字，表情或者它们的组合。例如，Alice支付给Bob $5.1的匹萨费用或者向Bob请求$550的。Venmo系统默认设置公开用户交易记录，但用户可以通过隐私控制不公开其交易记录或者选择性的公开给特定朋友。通过文献[118]发现几乎一半的Venmo交易记录是公开的。本章系统的考虑了通过公开的交易记录猜测Venmo用户家庭地址问题。参考前面文献的概念[64–74]定义用户的家庭住址为用户日常活动的城市级地区。本研究存在非常重要的积极和消极影响：从积极影响来说，用户位置信息有利于其它的应用，如：社会经济研究，本地事务推荐，以及业务推广等；另外一方面，用户家庭住址的暴露可能使得用户遭受基于位置的垃圾邮件攻击。由于Venmo中明显的位置线索非常稀少且在公开的Venmo交易记录中不太可信，所以本研究具有非常大的挑战性。举例来说，通过实验收集的大规模Venmo数据集可知，只有13.34%的公开交易记录包含位置标签信息且大部分信息与Venmo用户的家庭住址无关。本章提出了一种多层位置猜测（MLLI）技术用于猜测Venmo系统中用户的位置。MLLI的设计依赖于两个依据：首先，大量的Venmo交易说明包含隐式的位置线索。其次，用户交易的类型和时间模式与其位置存在强关联性。例如，如果David和Bob在日常活动中通过Venmo转账午餐费用，那么他们非常有可能住在同一个城市，即拥有相同的位置。相反，如果他们通过Venmo只是转账月通讯费用，那么他们就不一定在同一个城市。因为即使两个人住的非常远，他们也可能共享同一个通讯套餐。

........

总结

在针对现有大数据安全及隐私保护方法的研究基础上，本文针对云存储重复数据删除、基于云服务器的个人医疗记录、社交数据外包可验证以及移动支付等应用场景存在的安全与隐私问题进行深入、全面的研究和探索。主要的研究成果如下：

（1）针对云存储服务中重复数据删除系统存在的数据安全及用户隐私问题进行了研究。首次考虑了用户层次授权的重复数据删除问题，并设计了一个安全的层次授权重复数据删除系统。该系统包括数据用户、重复数据删除服务提供商以及云存储服务器等三个实体，且为数据用户分配不同的权限。为了实现拥有较高权限的用户对拥有较低权限的用户上传的数据可进行重复数据检查功能，提出了一种基于层次谓词加密方案。同时，该系统考虑了权限的动态变化情况，如：权限提升、权限降低以及权限终止等情况。为此，提出了支持动态权限的基于层次权限的谓词加密方案。该方案允许系统以较低的开销实现用户的权限变化。最后，通过安全分析和性能分析对上述两种方案的安全性和高效性进行分析，并通过针对真实数据集的实验证明上述方案的可行性和高效性。

（2）针对基于云服务的个人医疗数据系统存在的数据安全、用户隐私以及查询效率等问题进行了探索。现有工作只考虑了单源场景，即数据提供者采用独立密码对其索引进行加密处理。数据拥有者在查询数据时，需要为每个数据提供者的加密索引生成查询条件。从而导致查询条件数与数据提供者的个数相同。为降低上述开销，该工作首次考虑了多源场景中加密索引的合并问题。具体来说，数据提供者仍然采用独立密码加密其索引，但是允许云服务器合并不同数据提供者的加密索引。该系统中，数据拥有者只需生成单个查询条件。为实现上述系统，提出了一种多源保序对称加密（MOPSE）方案。同时，系统还考虑数据提供者之间的层次访问场景。例如：研究型医院希望获取更多的医疗数据进行疾病预防研究；可穿戴式个人健康监测设备只需提供监测服务而无需了解其它数据提供者的提供的数据。为实现该功能，提出了支持层次权限的多源保序对称加密方案（MOPSE+）方案。理论证明表明上述MOPSE和MOPSE+方案是安全的、高效的。最后，针对真实数据集的实验结果表明上述方案是有效的且高效的。

..........

参考文献（略）

写作参考：计算机学术论文参考文献格式模板「精选推荐」

复杂疾病关联miRNAs预测算法及计算机应用研究

面向信息物理系统的主动式复杂事件计算机处理技术研究

返回→计算机论文

论文写作模板

计算机论文范文样本

大数据中若干安全和隐私保护计算机问题研究

计算机论文

论文写作模板

计算机论文范文样本

计算机论文写作模板