计算机论文哪里有?本文针对传统卷积神经网络中的经典池化方法会造成网络流量信息损失,以及采用多个全连接层会造成参数众多的问题,采用自适应池化和全局池化对卷积神经网络进行改进。经过数据降维和不平衡处理之后生成的新数据集作为该改进的卷积神经网络的输入,从而有效地识别入侵行为。
第一章 绪论
1.2国内外研究现状
1.2.1 入侵检测发展
入侵检测技术的概念是 1980 年 Anderson[4]为美国空军作技术报告时,在《Computer Security Threat Monitoring and Surveillance》首次提出,即“未经授权蓄意尝试访问、篡改信息、使得原系统不可靠或不可使用”。这份报告是入侵检测的开篇之作。
1987 年,美国 Dorothy Denning 等[5]提出了可用于入侵检测的抽象模型。该系统由六个部分组成:主体、对象、审计记录、轮廓特征、异常记录、活动规则。它独立于特定的系统平台、应用环境、系统弱点以及入侵类型。它结合统计和规则技术,能够实现网络环境的实时检测,在入侵检测研究中极具影响力。
1988 年,Teresa Lunt 等人根据前人在入侵检测技术上的研究成果,对已有的入侵检测模型加入了自己的想法,并实际开发出一款实时入侵检测专家系统。这个系统主要由两个部分组成:(1)异常检测器,(2)专家系统。
1990 年,Hebelein[6]提出了一个新兴概念:基于网络的入侵检测——网络安全监视器(Network Security Monitor,NSM)。该概念的提出具有里程碑意义,成为了入侵检测历史上的分水岭。NSM 监控异种主机的审计数据来源是网络流,它将当前的网络模式与历史概要文件相比较就可以判断出与正常行为有差别的可能违规行为。从此之后,入侵检测开始分为基于主机和基于网络的两大阵营。
第三章 基于栈式稀疏自编码器的数据降维方法
3.1问题描述
随着网络的快速发展和大数据时代的来临,网络数据呈指数式上升,数据规模越来越大,数据特征不断增加,入侵数据也随之存在数据量大、维度高、隐蔽性高且种类复杂的问题。基于传统的机器学习方法或者浅层神经网络的入侵检测方法在检测性能上难以提升,导致误报率和漏报率高。面对海量高维的数据,直接处理会造成“维数灾难”的问题,产生很高的时间和空间复杂度,也会降低系统的检测性能。所以如何从海量数据中学习到隐藏的规律性是现在处理海量数据的目标之一。
对高维数据进行降维是解决上述问题的有效手段。数据降维可以将高维数据降低到一定范围的维度内,降维后的新数据能够很好地表示原始数据,进行后续的操作时也会缩短整体运行的时间。数据降维将原始数据映射为低维数据,可以消除冗余特征对模型效率和性能带来的影响。
深度学习对海量高维数据有着明显的优势且具有较强的非线性拟合能力,通过逐层提取特征,可以将高维非线性数据抽象为低维特征。但是,浅层网络不能提取到深层特征。因此,本文利用栈式稀疏自编码器对网络数据进行降维。
第五章 实验及结果分析 实验环境及数据集
5.1.1 实验环境
本文实验训练和测试均在 Windows10 操作系统环境下进行,CPU 为 Intel(R) Core(TM) i7-8550U,采用 python 作为开发语言,使用 pandas 读取和处理数据集。keras 是 python 编写的开源神经网络库,能方便快捷地搭建网络模型,快速处理和计算数据集,实现本文提到的ICNN-1D-IDS,本文深度学习框架使用 TensorFlow==2.4.0、Keras==2.4.3。本文实验环境如表5.1 所示。
5.1.2 数据集介绍
本文实验使用通信安全机构(CSE)与加拿大网络安全研究所(CIC)合作项目的数据集CIC-IDS-2017。该数据集由真实的背景流量组成,收集了网络流量的良性和恶意活动的真实痕迹。与其他网络入侵数据集(UNSW-NB15、CAIDA、AWID、DARPA、CIDDS-001)相比,该数据集较完整,且包含了多种新型攻击。
5.2自编码器降维实验结果分析
本实验根据第三章提到的数据预处理方法对数据进行处理之后,将样本按 7:1:2 划分为训练集、验证集和测试集,训练栈式稀疏自编码器。主要依据输入数据与预期输出之间的差异,验证本文提出的栈式稀疏自编码器进行数据降维的有效性。
在进行最终实验测试前,需要对网络层数、学习率等表 5.4 中列出的 9 个超参数进行设置。本文根据前人提供的参考值以及自身经验,设置浅层自编码器结构为 78-70-78。70 作为自编码器降维后的数据特征大小。自编码器超参数设置如表 5.4 所示。
本实验首先设置一个稀疏自编码器网络。若隐藏层神经元个数与输入层单元数或输出层单元数相等,网络学习到的特征表示较差。因此,隐藏层分别采用 50、60、70 个神经元,比较三种模型的重构误差。如图所示,78-60 这种结构与其他两种结构相比,它的重构误差较大,大约为 0.00443,78-50 和 78-70 这两种结构的重构误差较小,分别为 0.0009 和 0.00084。78-70 结构的重构误差曲线很平稳,且在 epoch 为 5 时就收敛稳定,而 78-50 的误差折线与 78-70结构相比较陡峭,收敛速度也较缓慢。因此,通过上述分析,在这三种结构中,78-70 结构表现最优。
第六章 总结与展望
6.2工作展望
深度学习方法在面对海量、高维的数据时,与传统的机器学习方法相比,具有较好的性能,因此基于深度学习的方法能更好的处理和识别网络流量。但是,针对真实环境中的网络数据与开源数据集存在差异性、模型的可解释性差、新型攻击的识别能力弱等方面的问题,本文提出的方法仍存在一定的不足,在未来工作中将对以下几方面进行研究:
本文采用的数据集是公开数据集 CIC-IDS-2017,与真实的网络环境中产生的网络流量还是存在一定的差异。因此,在未来研究中可以将本文提出的基于自编码器和卷积神经网络的入侵检测系统搭建在真实的网络中进行验证。
深度学习在各个领域都有突出的表现,但是我们无法知道深度学习内部是如何进行学习的,如何设置网络层数及各层神经元个数,如何提取到抽象、有效的信息,如何选择参数使得模型性能更好,这些问题导致深度学习的可解释性差。因此,本文方法的可解释性也是今后研究的方向之一。
如今网络快速发展,网络攻击也会随之变化,网络攻击也会越来越隐蔽和复杂。异常流量会难以与正常流量进行区分,此时,只针对网络流量的特征进行检测可能很难将其识别。因此,在今后的工作中,可以将网络流量结合主机信息及其他有效信息,进行入侵检测。
参考文献(略)