上海论文网提供毕业论文和发表论文,专业服务20年。

基于深度学习的恶意URL检测与探讨

  • 论文价格:150
  • 用途: 硕士毕业论文 Master Thesis
  • 作者:上海论文网
  • 点击次数:1
  • 论文字数:32566
  • 论文编号:el202203251110190
  • 日期:2022-04-04
  • 来源:上海论文网

计算机论文哪里有?笔者认为恶意 URL 的研究对于互联网安全具有重要现实意义,综合本文以上研究,本文设计的模型还存在一些可以优化的方面,将会在未来的工作中进一步考虑: (1)在 CBLA 模型中对 URL 文本的预处理和向量化表示中,可以从 URL 字符串的字符级别与单词级别综合考虑进行分词,融合二者获得的特征信息,以获得更好的特征表示。


第一章 绪论


1.2.2 国外研究现状

针对恶意 URL 的检测,国外研究人员也对其进行了大量的研究。Pawan  Prakash[14]使用了五种启发式方法研究恶意 URL 的组合,之后使用一种近似匹配算法对 URL 的组成部分进行匹配检测,如网站协议,主机名与文件目录等。Sun  B 与 Akiyama  M  等人[15]在黑名单检测的基础上提出了一种自动黑名单生成器的框架,该框架应用了预过滤器来加速黑名单的生成,框架本身包括 URL 扩展,URL 过滤和 URL 验证三个部分。随着互联网技术的高速发展,黑客们的网络攻击手段也逐渐复杂高级,黑名单技术由于自身体量的局限性,已经逐渐不能有效的识别未知 URL 并做出合理的判断,于是越来越多的机器学习和深度学习算法被用于恶意 URL 检测。Garera  S 等人[16]着重分析 URL 结构而不是具体的页面数据,最后总结出了 4种类型的 URL 结构,基于页面特征、域名特征、类型特征和词汇特征等 18 种特征,构建了逻辑回归分类模型。Invernizzi  L[17]提出了一种基于搜索引擎的网页搜索的方法,根据初始的恶意网页,不断搜索识别与其相似或者相关的恶意页面。Ma  J [18]提出了一种基于 URL 词法和主机信息的特征,创新性使用在线学习算法实现 URL 分类,能够针对新的 URL 特点进行持续的再训练,在验证数据集上有着极低的错误率。Sanho  Lee  [19]等人认为传统检测系统无法有效防止 URL 重定向问题,于是在分析恶意 URL 的重定向特征后,设计了一个名为 WarningBird 的近实时检测系统,实际评估中,该系统有着高度的准确率与检测精度。


第三章   基于 CNN 的恶意 URL 检测模型


3.1URL 特征表示

URL 是互联网上资源的一种定位标志。一个完整的 URL 一般形式为:  [协议]://[主机号]:[端口号]/[文件路径]?[查询]。

选取一条 URL 作为例子: “http://www.omg158.com/artical?name=cutcake” 将其与 URL 通用格式对比可知: [协议]=“http”; [主机号]=“www.omg158.com”; [端口号]=默认端口号一般为 80; [文件路径]=“artical”; [查询]=“name=cutcake”。 

与经典的文本分类不同,URL 语法以及字符串格式与传统文本出入较大。常见的文本分类中的文本一般都是由自然语言形成,如中文、英文等,它们都有各自的语法和标点符号。URL 主要由英文单词与特殊字符组成,需要说明的是,这些特殊符号在 URL 中代表着许多重要信息,比如‘/’代表目录,‘=’可以代表查询条件匹配,这就要求我们在分词阶段需要对其格外关注。在 Warner G 和 Solorio T [39]研究中,使用 URL 文本的特殊符号作为分词标准,利用剩下的单词构建语料库词典,然而这种分词技术忽略了文本中特殊字符本身的重要意义。 

现有的英文分词技术往往不会考虑到句子中的特殊符号,而只关注于单词本身。特殊符号被过滤掉后,余下的单词组成一个拥有一定数量的词典,按照索引编码,之后再对这些单词实现词向量表示。显然,这种分词方法不适用于处理 URL 这种具有特殊语法的文本。


第四章   基于 BERT 特征表示的恶意 URL 检测模型


4.1Transformer 模型

2018 年谷歌的 BERT 模型横空出世,NLP 领域各大任务在精度与效率上都得到了明显提升。BERT 的核心部分是 Transformer 编码器[45],并且由于 Transformer 优秀的自注意力机制,逐渐受到广大研究者的青睐。在 Transformer 模型面世之前,许多序列模型都是基于 CNN 和RNN 的,而 Transformer 是完全基于 Attention 机制的,该机制要比 CNN 和 RNN 优秀。Attention 机制可以解决 RNN 及其变体存在的长距离依赖问题,有更好的记忆力,其次支持并行化计算,能够加快运算效率。Transformer  的 encoder 模块是  BERT  预训练模型的核心,其基本架构如下图所示:

计算机论文参考

图中 N 表示 Encoder 编码器的层数,在 Transformer 论文原文中模型叠加了 6 个完全一样的 Encoder 层,为了避免模型的网络过深,导致训练困难,模型中每一层中都加入了残差连接来优化训练。此外,在每层 Encoder 的内部,输入数据先进入 Multi-Head-Attention 层,计算权重分数,之后进入一层全连接前馈神经网络,实现标准归一化处理后,进入下一个 Encoder 层中往复处理。 


4.2BERT 迁移策略

BERT[26]模型的基础结构是 Seq2Seq,核心是 Transformer encoder,关于 Transformer 模型在上一节已经解释。在深度学习中,模型训练的数据越多,其最后的表达效果就可能更好。BERT 模型使用了大量语料进行预训练,拥有极强的文本特征表示能力,在获得丰富的文本语义表示后,可以利用这些词向量用作下游任务的输入。图 4.4 展示了 BERT 模型的结构:

计算机论文怎么写

从图中可以看出,BERT 模型堆叠了多个 Transformer  编码模块,其中𝐸 = {𝐸1, 𝐸2, … , 𝐸𝑁}表示 BERT 的输入序列,𝑇 = {𝑇1, 𝑇2, … , 𝑇𝑁}表示经过多个编码器处理后的输出序列。Google 的科研人员训练了两个模型𝐵𝐸𝑅𝑇𝐵𝐴𝑆𝐸和𝐵𝐸𝑅𝑇𝐿𝐴𝑅𝐺𝐸,二者的区别主要是模型所堆叠的编码模块的个数不同。𝐵𝐸𝑅𝑇𝐵𝐴𝑆𝐸拥有 12 个编码模块,每个模块有 12 个 head,拥有 768 个隐藏单元,相对应的,𝐵𝐸𝑅𝑇𝐿𝐴𝑅𝐺𝐸模型中有 24 个编码模块,16 个 head,拥有 1024 个隐藏单元。此外,两种模型都有对应的 Uncased 和 Cased 版本,其中 Uncased 版本表示 BERT 在分词之前会将单词转化为小写,并且会把语料中口音标记剔除,而 Cased 版本则保留了这些。考虑到本文研究的 URL 字符串中包含了英文大小写字符,选择使用 BERT 模型的 Cased 版本。


第五章 总结与展望


5.2展望

恶意 URL 的研究对于互联网安全具有重要现实意义,综合本文以上研究,本文设计的模型还存在一些可以优化的方面,将会在未来的工作中进一步考虑:

(1)在 CBLA 模型中对 URL 文本的预处理和向量化表示中,可以从 URL 字符串的字符级别与单词级别综合考虑进行分词,融合二者获得的特征信息,以获得更好的特征表示。

(2)在 BBL 模型中,BERT 获取 URL 特征信息之后,可以尝试将 URL 特征向量接入不同的神经网络结构,如 CNN、GRU 等,也许能获得更好的检测效果。

(3)BERT 模型参数量巨大,可以在做微调时候只选择部分参数进行训练,而其他参数不用更新,所以可以添加过滤器固定这些不必更新的参数,以此提高模型的训练效率。

(4)由于 BERT 的输入往往是一些单体句子而不是长篇文本,而本文研究的 URL 字符串也属于单体句子,所以可以考虑消除 BERT 的 NSP 预训练任务。

(5)本文主要研究恶意 URL 分类,针对日益复杂的网络攻击,未来的工作可以将研究对象从 URL 字符串扩展到网页 HTML 长文本,进一步提升网络安防能力。

参考文献(略)


123
限时特价,全文150.00元,获取完整文章,请点击立即购买,付款后系统自动下载

也可输入商品号自助下载

下载

微信支付

查看订单详情

输入商品号下载

1,点击按钮复制下方QQ号!!
2,打开QQ >> 添加好友/群
3,粘贴QQ,完成添加!!