本文是一篇计算机论文,计算机的应用在中国越来越普遍,改革开放以后,中国计算机用户的数量不断攀升,应用水平不断提高,特别是互联网、通信、多媒体等领域的应用取得了不错的成绩。(以上内容来自百度百科)今天为大家推荐一篇计算机论文,供大家参考。
第 1 章 绪论
1.1 研究背景
计算机网络作为关键基础设施的一部分,对社会和全球经济具有极其重要的意义,它们需要得到良好的管理和保护,免受基础设施和实际通信的威胁。因此,近年来,随着流量的不断增加和流量模式的不断变化,为了提供更好的网络管理和更有弹性的网络,流量异常检测受到了互联网服务提供商(InternetServiceProviders,ISP)和网络研究界的广泛关注[1-13]。网络流量经常发生异常现象,造成网络流量水平的非典型变化,这可能会影响网络的效率和可靠性。这些异常现象的来源可能是故意恶意的或是无意的,例如攻击、故障、配置错误,或是合法但非正常的网络使用,例如突发访问。目前,使用两种主流的方法来检测和识别网络异常,即基于签名的异常检测[12, 14, 15]和基于统计的异常检测[1-6, 8, 12, 13]。前者是利用过去收集到的基于模式的先验知识来提取和识别正在发生的异常,而后者则试图分离与网络的正常行为描述有很大偏离的模式。基于签名的异常检测方法是资源密集型的,检测率往往低于 70%[12],而基于统计的异常检测方法则一直是研究界关注的焦点。流量异常检测能够识别、理解和分类网络中的异常行为,从而使通信网络具有更强的抗灾能力。在这种情况下的一个关键问题是,如何区分由于合法的服务请求而导致的操作超载或恶意攻击,例如突发访问、DDoS 攻击,然后应用适当的对策来缓解或补救该问题[16]。因此,异常检测是一个多阶段的过程,通过异常检测来识别网络流量中异常行为的发生,确定流量异常分类/聚类,并归类流量异常的根本原因。
.........
1.2 流量异常检测问题
对各种网络异常类型进行可靠的识别和分类并不是一目了然的,必须要考虑一些问题。首先,流量数据中包含了大量的噪声,它们要么是由于测量过程本身引起的,要么是由于所有测量链路聚合而成的交叉流量的突增造成的。要从大量的多维流量数据中识别和解释异常模式,网络流量异常检测变得非常复杂。其次,网络异常检测在流量测量的高监测和处理成本方面存在许多技术困难,同时又缺乏实时检测的自动化工具[1, 7, 17]。此外,由于问题的多维度性,至今还没有建立全面的分类方案或框架。第三,有关流量异常检测这一问题的文献是分散的,目前还没有提供问题范围的全面描述。第四,由于涉及用户隐私的业务相关问题以及维护网络数据资源的成本,任何已经提出的异常检测技术的适用性都受到限制。即使在服务提供商提供网络追踪的情况下,这些数据很可能是骨干网中的特定观察点捕获的,这可能不足以构建符合给定的骨干网所表现的整体动态变化的训练模型。例如,在单个主干链路上获取操作数据的情况,与在存在点上的多个链接捕获跟踪的情况相比,则需要进行完全不同的后处理。尽管如此,以往的研究已经采取了不同的方法来比较现有的异常检测技术[18,19]。在基于度量的视角下,根据观察网络流量特征分布的变化区分异常检测技术[1, 6, 12, 20],根据流量的变化区分异常检测技术[13, 21-23]。总的来说,在评估异常检测和分类技术的质量时,可以考虑一些标准的性能指标[24]。其中最常见的性能指标有真阳性率 TPR、特异性 SPC、精度 P、阴性预测值 NPV、假阳性率 FPR、假发现率 FDR、准确性 ACC 和 F1 评分。特别地,假阳性是指那些应该被标记为非恶意的,但被标记为恶意的流或数据包。相反,假阴性是指那些应该被标记为恶意的,但被标记为非恶意的流或数据包。尽管有这些通用的度量标准,但仍然存在一些对异常检测方案进行充分评估的基本限制。异常检测方法评估的另一个困难与实验的重复性有关,此外,依赖于固定大小的网络流量痕迹,也使得研究人员无法在异常检测方案中进行灵敏度分析。
...........
第 2 章 流量异常检测及相关知识
2.1 流量异常检测概述
异常行为的概念已经在一系列学科中得到了广泛的讨论,尚未全面界定其在所有学科中的使用。如果网络中的非典型事件与最初通过统计异常检测方法构建的总体正常分析相比,表现出异常特征,则认为该事件是异常的。因此,网络异常对应于不符合由给定的统计模型所定义的正常行为的可观测网络流量模式或特征,例如分组/流量/字节计数、分发源/目的地 IP 地址对。同时,尽管大部分异常情况是出于恶意攻击的目的造成的,例如 DDoS 攻击、蠕虫、病毒,并且对网络的性能有直接的影响,但有几种情况下检测到的异常不一定会导致网络整体性能的下降,例如端口扫描,并不总是恶意的,例如突发访问。传统的网络异常检测技术的最终目标是区分网络中的正常和异常行为。在任何需要异常检测的情况下,都有两个相互冲突的目标,即网络和系统的最佳检测和保护,以及高效和成本有效的操作。一方面,人们希望获得最好的服务,使其免受网络中所有恶意意图的侵害;另一方面,必须考虑经济和可行性方面的问题,这可能会导致特定服务用户的优先次序或者接受检测基础设施内的某些弱点。因此,要评估检测机制,需要考虑整个问题范围及其不同的维度。
.............
2.2 流量异常类型
引发异常的原因多种多样,从恶意的有针对性的网络攻击到由于人为错误导致的无意的错误配置。错误配置可能导致网络不理想地运行或使其无法正常运行,或使网络容易受到已知操作威胁的攻击,例如路由错误配置、防火墙错误配置。另外,在网络中提供新的服务和设备,或者现有的服务和设备的故障,也可能导致与预期的正常流量的差异,从而表明发生异常。类似地,异常可能是由于访问服务次数的意外增加而引起的,例如突发访问,这可能会影响网络的性能,甚至阻止它提供服务。最后,由于互联网技术和操作系统的快速发展,存在大量不可能被网络级检测到的新异常,例如特定于应用的威胁。尽管绝大多数的检测策略都知道轻量级的异常,例如端口扫描、蠕虫传播、网络钓鱼攻击,但开发适应所有类型异常的单一技术是不可行的。以前的工作中已经对网络异常现象进行了分类[7, 8]。然而,为了更好地构造问题空间,本文采用 Barford 等人提出的网络异常分类方法[29]:(1)恶意攻击:试图使合法用户无法获得基础设施和服务,例如分布式拒绝服务攻击(DDoS)。(2)合法但非正常的使用:对一项服务的合法需求,比系统准备处理的服务要大得多,例如突发访问。(3)测量异常:因为数据收集方面的问题造成的,例如由于路由器过载导致流量数据丢失。
..........
第3章 基于特征分析的通信网络异常弱关联数据检测.........27
3.1 引言......... 27
3.2 问题提出............28
3.3 基于特征分析的异常弱关联数据检测........30
3.4 实验......... 36
3.4.1 数据集..........36
3.4.2 网络通信自适应测试........39
3.5 本章小结............42
第4章 基于改进的自适应遗传算法和支持向量机结合的流量异常检测方法............45
4.1 引言......... 45
4.2 支持向量机与支持向量机参数优化............46
4.2.1 支持向量机.............46
4.2.2 支持向量机参数优化........48
4.3 遗传算法与特征选择..............49
4.4 基于改进的自适应遗传算法和支持向量机结合的流量异常检测.......54
4.4.1 改进的自适应遗传算法同时进行特征选择和参数优化......54
4.4.2 基于改进的自适应遗传算法和支持向量机结合的流量异常检测框架......60
4.5 实验......... 61
4.6 本章小结............64
第5章 基于蚱蜢优化算法和K-Means结合的流量异常检测方法.........65
5.1 引言......... 65
5.2 K-Means算法......66
5.3 蚱蜢优化算法....67
5.4 基于蚱蜢优化算法和K-Means结合的流量异常检测...... 71
第5章 基于蚱蜢优化算法和K-Means结合的流量异常检测方法
5.1 引言
第 4 章使用监督学习的方法对流量异常进行检测和分类,使用监督学习有一个很重要的前提是需要大量的样本数据对模型进行训练,但是在很多场合下,并不能提供这样大量的样本数据,在这种情况下,监督学习的方法就不适用了。K-Means 算法是一种无监督模式的基于划分的聚类方法,属于基于距离的聚类算法,已被广泛研究并应用于流量异常检测。基于距离的聚类算法的相似性度量标准是距离,两个对象距离近,它们的相似性高,反之,两个对象距离远,它们的相似性则低。基于距离的聚类算法通常是把距离近的对象组成簇,聚类的目标是获得紧凑并且独立的簇。它通过随机选取 K 个点作为初始聚类中心,利用迭代操作达到聚类的目的。另一方面,在 K-Means 聚类之前寻找初始中心是在应用中使用 K-Means 聚类的难点之一,它容易使算法陷入局部最优解而无法得到全局最优解。蚱蜢优化算法(Grasshopper optimisation algorithm,GOA)是 Saremi 等人提出的一种新的元启发式优化算法[151, 152]。GOA 模仿蚱蜢的自然群集行为,模拟蚱蜢之间的排斥力和吸引力,该算法已经被证明优于其他基于一组复杂基准函数和工程问题的现代元启发式算法。因为 K-Means 聚类可能会根据不适当的初始点而陷入局部最优,本文采用蚱蜢优化算法来克服 K-Means 的缺点,将 GOA 和 K-Means 相结合,通过在K-Means 聚类之前适当地应用 GOA 来避免这个问题。也就是说,为了摆脱局部最优解,将蚱蜢优化算法的最佳解决方案作为 K-Means 聚类的初始点。在此背景下,提出蚱蜢优化算法和 K-Means 结合的流量异常检测方法。本章最后,将对提出的方法与基于经典遗传算法的 K-Means 聚类方法在流量异常检测中进行对比实验,实验结果表明了该算法的有效性,聚类精度大大提高。#p#分页标题#e#
........
总结
本文研究工作的目标是对大规模网络中的异常流量进行检测。因此,本文对流量异常检测的问题挑战及解决方法进行了系统的研究,目的是为了提高大规模网络中流量异常的检准率和效率,取得的主要成果如下:
(1)对流量异常检测问题进行系统的分析,定义流量异常检测问题。
(2)提出了一种基于特征分析的通信网络中异常弱关联数据检测方法。通过对弱关联数据特征的深度分析,结合关联规则设置异常弱关联数据的特征类型,并根据粗粒度表示提取异常流量中异常弱关联数据特征,利用信息熵对异常弱关联数据进行检测,有效地提高了网络通信的自适应能力。
(3)提出了基于改进的自适应遗传算法和支持向量机结合的流量异常检测方法。使用 SVM 进行流量异常检测,需要同时考虑特征选择和参数优化的问题,以往的文献大多将这两个问题分开解决。本文提出使用遗传算法同时解决这两个问题。但是,当选择遗传算法进行优化问题的求解过程中,使用者往往需要设置一些参数,由于不同的遗传算子适用于不同的应用领域,因此参数调整是一项困难的任务。本文提出了一种遗传算子随机变化的遗传算法方案,结合使用非均匀交叉和选择技术,引入种群的多样性。然后,使用改进的自适应遗传算法在进行特征选择的同时优化 SVM 参数,以提高流量异常检测的效率。
(4)提出了一种基于蚱蜢优化算法和 K-Means 结合的流量异常检测方法。使用 K-Means 聚类进行流量异常检测时,针对 K-Means 受随机初始聚类中心选择的影响,提出结合蚱蜢优化算法优化 K-Means 聚类的思想,将蚱蜢优化算法的最佳解决方案作为 K-Means 算法的初始点,以提高异常检测的全局搜索能力和局部搜索能力。
..........
参考文献(略)