上海论文网提供毕业论文和发表论文,专业服务20年。

基于深度神经网络的罪名预测思考

  • 论文价格:150
  • 用途: 硕士毕业论文 Master Thesis
  • 作者:上海论文网
  • 点击次数:1
  • 论文字数:26521
  • 论文编号:
  • 日期:2022-09-21
  • 来源:上海论文网

计算机论文哪里有?本文旨在借助目前计算机技术解决当前社会所存在的相关法律资源不足问题,也为有相关需求的人提供相关的帮助,适当减轻相关司法工作者的负担。主要探索目前罪名预测任务在预测中存在的问题以及如何才能进一步提高预测的准确率问题。

第一章  绪论

1.2  国内外研究现状

法律判决预测拥有广泛的应用领域,可以帮助律师事务所组织开展与文件支持(创建、修订、存储和检索)相关的日常活动,法律诉讼(在诉讼和政府调查过程中提供电子文件,对(非)法律来源进行法律研究以支持决策),更广泛地说,与法律服务从文本和纸质到数字形式的非物质化有关的所有方面。其中一些领域以文档和语言为中心(文档存储和检索、电子存档、法律研究和文档自动化汇编),法学院、法律办公室和立法顾问制定的指导方针,解释法律文件(如决议、行政命令、合同、法规)的内部结构和组成部分,以及如何使用精确的法律术语明确表达规则和决定,以及如何处理来源之间的交叉引用等。在这种情况下,利用自然语言处理技术通过控制文件结构、句子长度和推荐术语的使用来支持起草,这与司法自然语言处理高度相关。

利用自然语言处理技术解决法律问题最初是用于协助法律从业人员起草法律文件。其中起草人根据自己的意愿来决定自动细化和实例化文档模板(例如合同)[11-13]。这种方法使用非常基本的自然语言处理技术来提供合同。然而,现在自然语言处理技术在分析法律文件方面有着越来越大作用,同时这些文件也已经变得非常大规模,例如全球石油和天然气特许权模型可以自动的在一系列文件中挖掘合同关系。

由此可见,碍于当时技术的限制在早期研究人员倾向于运用统计学模型[14,15]来进行法律判决预测,Kort 等通过分析过往大量的历史案例并运用统计学模型和数学来计算预测美国联邦最高人民法院的最终判决结果[16]。Ulmer 等使用基于规则的方法分析法律文本中的关键信息从而定量的获得相关数据,将分析结果加上事实数据为法官判处罪民时提供适当的建议[17]。Keown 等也是利用相应的数学模型配合在特定情形下发生的类似案件再加上相关法律法规条款来进行预测[18]。以上方法由于限制于当时的计算能力,总是使用人工制作的规则或特征来进行预测,这就使得整个模型在准确率以及泛化能力上变得很差,往往特定的模型只能特定的问题,这时能够有一种准确率高并且泛化能力强并且鲁棒性好的模型就变得尤为重要。

计算机论文怎么写

第三章  融合 BiGRU+Attention 的罪名预测

3.1  基于门控网络的司法文书建模

在法律文本信息中,由于相关法律描述存在一定的专业性,并且法律判决书中存在一些专业性的词汇或者表达方式,这是就需要神经网络模型捕获到其中的关键信息,或者根据上下文的表述中,对相关的描述做出判断。

GRU(Gated Recurrent Unit)是由长短时记忆神经网络(LSTM)发展而来,和 LSTM相同是在应用循环神经网络(RNN)的基础上进行改进加强的模型,长期记忆和反向传播等的技术梯度在模型上同样是适用的。由于 RNN 在处理序列数据时位置在后面的节点很难与靠前的节点有联系而导致梯度消失问题,即在普通的单向的神经网络模型结构中,模型的流程状态一直是处于从前往后输出的[50]。然而在自然语言处理领域,模型需要处理的使前后文有强烈关系的文本信息,在一段文本数据中当前文本总是能与之前文本或者之后的文本产生一定的联系,因而如果模型只能按照顺序来处理文本数据,意味着只能处理历史信息,下文还未出现的信息就无法与前文产生联系,那必然会有相当大一部分的文本语义信息是模型所接收不到的,这就会导致模型不能完全获取数据中的信息,就无法对文本信息做出准确充分的判断,从而使模型的最终性能受到影响。在此基础之上 Zhang 等人[51]提出了一种基于双向门控循环神经网络模型,模型利用两个独立的 GRU 来处理文本数据获取向量特征。

第四章  基于自监督学习语言模型的罪名预测

4.1  针对法律文本的预训练模型

针对长文本序列,如何才能准确把握住语句中前后的语义联系,是当前神经网络模型中需要解决的问题。BERT[53]全称为 Bidirectional Encoder Representation from Transformers,2018 年 Devlin J 等人于 Google 提出的预训练模型,模型的具体结构图如图 4-1 所示,使用Transformer 编码器对相应的文本数据进行处理,模型重新设计了两个全新的预训练任务,而并不是像传统的模型一样,使用简单的语言模型,或者几个简单的语言模型进行拼凑而成,并且利用大规模无标注的语料进行训练使模型能够充分的获得文本中包含的丰富的语义表示。

模型中主要包含了 2 个预训练任务,第一个任务是 Masked Language Model(MLM)即给定一句话,随机抹去这句话中的一个或几个词,要求根据剩余词或句来预测被抹去的词是什么。这类似于完形填空任务,具体来说,模型会在训练数据中随机选择 15%的单词,然后把所选中数据中的 80%用[Mask]掩码代替,剩下的其中的 10%会用另一个单词随机替换掉,最后剩下的 10%则保持原单词不变,然后训练模型去预测被选中的单词。使用这种方法的原因是因为掩码只会在训练数据中才会出现,如果把所有的选中的单词都变为了掩码,那么所训练出的模型则只能针对掩码来预测,这是在实际情况中不实用的,所以随机有概率的将掩码替换,就基本上不会影响模型训练中获取上下文信息的语言理解能力,在法律相关的长文本信息提取中,采用这种任务来训练模型的性能,可以使模型能够充分获取到法律文本中语义间的信息。

4.2  面向司法的卷积神经网络

使用卷积神经网络来进行文本分类的模型,模型为了能够更好的捕捉文本中局部的相关性,模型使用了多个大小不同的卷积核来提取句子中的关键信息。TextCNN 模型结构如图 4-3 所示。

模型的第一层为嵌入层(Embedding Layer)首先模型接受由 ALBERT 训练好的特征向量,预先训练的词嵌入可以利用其他语料库得到更多的先验知识,由预先训练好的向量构成一个由 N×K 的嵌入矩阵 M,N 代表句子的长度,K 代表词向量的长度。

计算机论文参考

模型的第三层是一个 1-max pooling 层,最大池化层,即为从每个滑动窗口产生的特征向量中筛选出一个最大的特征,然后将这些特征拼接起来构成向量表示。经过这层之后不同长度的句子在经过池化层之后都能变成定长表示。

经池化操作后,获得一维向量,再通过 ReLU 激活函数输出,添加 Dropout 层,防止过拟合,经过全连接层输出并在全连接层添加正则化参数。最后全连接层的所有输出值都连接到 softmax 层,最后输出预测罪名的结果。

第五章  总结与展望

5.1  工作成果总结

本文主要是研究当前环境下罪名预测问题。目前我国每年都能产生数以万计的法律诉讼案件,但是我国的法律资源却是有限的,再加上法律援助必须是相关法律从业人员或者专业人员才能提供的服务,这就可能导致存在一些法律资源所覆盖不到的地方,有些法律援助可能无法落实到实际需要的地方,所以借助计算机技术进行法律判决预测,可以有效地缓解当前法律形势,针对目前的研究形势,本文提出了两种方法用于探索罪名预测任务在实际司法实践中的可行性。

第一种是融合了 BiGRU 和 Attention 机制的神经网络模型,用来解决罪名预测问题,再经过试验之后,调优原先的 BiGRU 模型,并且在此的基础之上引入了 Attention 机制,使得模型既可以利用 BiGRU 的特性获取到上下文中丰富的语义信息,也能利用 Attention机制能够更加准确的把握到文本信息中想要表达的意思。经过实验证明,使用 BiGRU 结合 Attention 机制的模型在罪名预测问题上取得了不错的效果,从实验上结果上看,两种机制的融合提升了模型的总体性能。

第二种是针对现有的罪名预测模型方法上,本文提出了 ALBT 模型来解决罪名预测问题,结合 ALBERT 和 TextCNN 模型进行罪名预测,用 ALBERT 模型在相关法律文本数据上进行预训练来获得更加丰富的上下文间的语义信息,并进行相应的精调,利用 ALBERT相比于其他预训练模型来说参数量大大减少的优势,使模型更加轻量,训练速度也更加快,相比于庞大的 bert 来说,是比较容易获得较为不错的实验结果。再结合结构简单的卷积神经网络 TextCNN 模型进行罪名预测,从结果上看取得了不错的效果,最终的实验结果表明本文提出的预训练模型要优于基线模型。

参考文献(略)

123
限时特价,全文150.00元,获取完整文章,请点击立即购买,付款后系统自动下载

也可输入商品号自助下载

下载

微信支付

查看订单详情

输入商品号下载

1,点击按钮复制下方QQ号!!
2,打开QQ >> 添加好友/群
3,粘贴QQ,完成添加!!