计算机论文哪里有?笔者认为随着大数据时代的到来,处理大数据的能力已经成为社会各界广泛关注的焦点问题。对大数据进行充分利用,挖掘其中有价值的潜在信息,对于经济社会的发展具有重大意义。
第一章 绪论
1.2 国内外研究现状
关联规则挖掘的概念是IBM公司的Agrawal等人于1993年首先提出的,通过关联规则算法对顾客的购物数据进行分析,获取顾客所购买的不同商品之间存在的普遍联系,并根据分析结果制定销售方案,调整商品的相对摆放位置,从而促进顾客进行消费。在历经近三十年的发展后,关联规则算法已经广泛运用于诸多领域。文献[17]将关联规则挖掘应用于电网调度的操作推荐服务,通过识别调度员的操作模式,为其提供合适的操作推荐,提升了工作效率。文献[18]将关联规则算法应用于慢性病共病情况分析,探究各种慢性病之间的联系,从而为各种慢性病的筛查与预防提供了保障。文献[19]基于关联规则技术构建招投标失信行为分析预警模型,为公共资源交易的监管提供了可行的解决方案。
对关联规则算法的研究起源于上世纪九十年代。1994年,Agrawal等人提出了Apriori算法[20],开始了对关联规则挖掘这一全新领域的研究。Apriori是关联规则挖掘领域最为经典的算法之一,主要通过多次迭代的方式生成最终的频繁项集。但处理海量的动态数据时,多次对数据库进行重复扫描将极大地影响算法性能。针对Apriori算法存在的问题,Han等人提出了基于FP(Frequent pattern)树的FP-Growth算法[21],通过分治策略避免了算法运行过程中产生大量的候选项集,只需要扫描一次数据库即可将所有信息保存至频繁模式树中,再根据数据库中的数据信息划分条件模式树,并从中挖掘频繁项;朱玉全等人提出了一种基于FP树的增量式更新算法FIUA(Fast Incremental Updating Algorithm),通过利用FP-Growth算法获得的旧频繁项集来发现最新的频繁项[22];Cheung等人在FP树的基础上,提出了一种CATS(Compressed and Arranged Transaction Sequences)树[23],结合FP树与前缀树的优势,实现了CATS树结构的“一次构建,多次使用”;杜焕强等人提出了基于FP树改进的FPIUA2(Frequent Pattern Incremental Updating Algorithm Ⅱ)算法[24],可以对各种类型的数据集进行高效率的连续处理;程广等人对FP-Growth算法进行了优化[25],在增量挖掘时通过扫描原始数据库完成对频繁项的更新,并与大数据处理框架MapReduce相结合,提升算法处理海量数据的能力;
第三章 并行关联规则增量挖掘算法MR-PARIMIEG
3.1相似项合并
基于Can树结构的增量关联规则挖掘算法在构建树结构时会存储所有的数据项,因此在数据量较大时最终生成的树结构将极其庞杂。基于此,本节提出SIM-IE策略以合并数据集中的相似项,从而简化最终生成的树结构,降低树结构的空间占用。SIM-IE主要包含以下3个步骤。(1)数据集划分:计算数据项的平均差,并将平均差与数据项之间的差值进行比较,从而对数据集进行划分。(2)相似度计算:根据划分后的数据集计算信息熵和条件熵,以获取各数据集之间的相似度。(3)相似项合并:将各数据集之间的相似度与相似度阈值进行比较,由此进行相似项合并,同时计算并更新合并后的数据集的全局概率。
3.1.1 数据集划分
对于构成Can树的数据项而言,对其进行排序后数据项将按值大小进行分布,那么相邻的数据项之间的差值可以直观地反映出数据的邻近性,即相邻项的差值越小,那么这两个数据项就越邻近,因此可根据差值大小对数据项进行分类。平均差反映了整个数据集的平均邻近距离,根据平均差将具有平均邻近性的数据项划分为一类,而相邻项之间的差值大于平均邻近距离的项则划分到不同的数据集合中,可以将整个集合中的数据相对合理地划分到不同的数据集中。因此,将数据项的平均差作为评价标准以进行数据划分是较可行的一种划分方法,这种平均的划分方法首先将数据集进行合并与排序,然后计算各数据项之间的差值,从而求得平均差,最后根据平均差进行数据划分。
第四章 并行关联规则增量挖掘算法MR-PARIRM
4.1 合并相似项
基于Can树的增量关联规则算法为简化增量挖掘工作,需要对所有的数据信息进行存储,在大数据环境下,其树结构的空间占用将极为庞杂。针对此问题,提出了一种RS-SIM策略,以解决树结构空间占用过大的问题。RS-SIM策略如下:
首先,需要根据平均差确定数据之间的邻近性,并由此对数据项进行划分,将所有的数据相对合理地划分到各数据集中。具体的划分过程为:
(1)将需要进行相似性评估的所有数据项按序排列,并求出所有相邻数据项的差值之和sum。令数据总项数为n,则平均差为:avg =sum/(n−1)。
(2)根据平均差对数据项进行划分,将相邻数据项之间的差值与平均差进行比较,如果差值小于平均差,那么就将前一个划分的数据与当前数据归为同一分区,否则开辟新分区存储当前数据项。重复比较与划分操作,直至所有数据均已被划分到对应的分区。
4.2归并剪枝
对于关联规则算法,频繁项的挖掘效率将对算法的整体性能产生极为明显的影响。大数据环境下,频繁模式挖掘的搜索空间在规模上呈指数级增长,将会对挖掘效率产生显著影响。因此,如何有效压缩搜索空间,以最终提升挖掘效率,是一个关键的问题。基于此,设计了一种归并剪枝策略MPS对树结构进行处理,以优化搜索空间复杂度。具体的运行流程如下:
(1)首先判断Can树结构中是否存在无其它分支的单向路径,如果存在此类路径,将该路径计作S,将路径中节点的支持度设为F,并直接将S中的所有节点信息进行归并以生成频繁项集,并将对应的条件模式基保存为{S:F}。
(2)自底向上对树结构中的节点信息进行遍历,以获取所有叶子节点至根结点的n条传播路径1 nR~R。
(3)根据传播路径的叶子节点信息获取具有相同叶子节点的传播路径,并提取这些传播路径上除叶子节点外的公共路径,然后根据公共路径进行剪枝合并并叠加被剪枝路径的支持度,同时对被剪枝路径的父节点支持度进行更新。
(4)判断经过剪枝操作后,是否仍然存在具有相同叶子节点的多条传播路径,如果是则再从第一步开始进行剪枝操作,否则进入下一步。
(5)将剪枝后合并的每个数据项的条件模式基进行记录,以进行后续的频繁模式挖掘。令数据项为x,支持度为F,那么条件模式基为x{R:F}。
第五章 总结与展望
5.2研究展望
随着大数据时代的到来,处理大数据的能力已经成为社会各界广泛关注的焦点问题。对大数据进行充分利用,挖掘其中有价值的潜在信息,对于经济社会的发展具有重大意义。本文虽然改进了关联规则算法所存在的部分问题,但仍旧存在不足,下一步将对以下几个方面进行研究与完善:
(1)本文进行实验时使用的数据集类型相对有限,为进一步对本文所提算法的性能进行验证,将在更多不同类型的数据集上进行对比实验。
(2)本文所提出的改进算法主要基于MapReduce分布式计算模型实现并行化运算,但MapReduce计算模型也存在一些不足,尤其是Map、Reduce阶段均需要对数据进行多次读写,极大地增加了I/O开销。目前新兴的大数据处理框架Spark有着优秀的内存调度技术,减少了磁盘的I/O时间,未来基于Spark框架的关联规则算法有待深入研究。
(3)本文主要论述基于Can树结构的关联规则增量挖掘算法的改进与实现,但关联规则算法需要应用于实际,为各种实际场景的决策提供数据分析与支撑。如何将本文所提出的理论算法与实际应用相结合,实现研究成果的落地,是下一步的研究重点。
参考文献(略)