计算机论文哪里有?本文改进了现有的记忆网络 Transformer 模型,解决了现阶段 Transformer 模型多特征共同处理浪费时效性的工作缺点,更适用于文本的智能问答。并且提出了全新的基于 UniLM 思想融合检索与生成为一体的 SimBERT 模型和加入了随机拼音替换的数据增强方法,解决了数据不足的难题。
第一章 绪论
1.2 国内外研究现状
知识推理的内容非常丰富,按照侧重点有所不同,也可以分为很多种不同的知识推理方式。官赛萍[13]在文章中提出了知识推理可以按逻辑推理的基本背景差异分成传统知识逻辑推理和面向知识图谱[14-18]的知识逻辑推理。漆桂林[19]、徐增林[20]、刘峤[21]等人也提出,对于知识图谱的知识推理根据描述方法的差异,也可以分成根据逻辑式的推论、基于统计的逻辑推理,和根据图的逻辑推理。基于逻辑上的推理方法,主要是指利用一阶的谓词逻辑[22-26]、描述逻辑,运用规则来推论出的新的实体关系。而基于统计的推理方法,主要是指利用机器学习[27-31]的方法从知识图谱中总结出统计的规律性从而做出推理。基于图的推理方法主要有 Path Ranking[32]算法和基于神经网络的方法。Path Ranking算法的基础思路,是把知识图谱看成是各种图(以实体为节点,以属性或者关系作为边),由起始目的节点(实体)开始,在图上进行随意游走的任务方式,一旦可以经过某个途径达到总体目标节点(其他实体),则可以推测两节点之间有着具体一种关系。基于神经网络的知识推理技术可以认为是一种基于得分函数推理的创新技术,使用神经网络来构造知识图谱事实中的三元组,并以此构造想要的得分函数,同时提取三元组中的所有已知元素的矢量表示,并使其和预期要素以及候选要素的矢量来加以比对,最后神经网络的输出值即为结果分数。
第三章 基于 SimBERT 模型和随机拼音替换的数据增强
3.1 基于 SimB ERT 和随机拼音替换的联合数据增强算法
在这之前,介绍现在常用数据增强方法。利用简单数据增强技术提升了文本分类的任务性能。由以下四种非常简单而且功能强大的方法所构成:随机实体替代、随机同义词替代、随机近义词替代、随机字删除。
在文本分类任务中,人们发现数据增强方式极大的改善了递归神经网络和卷积神经网络的运行效率。数据增强方式在处理较小的数据集时显示出了非常强大的结果;平均来说,在数据集中,可以通过对这四种数据强化方式进行训练,从而仅使用了50%的可用训练集,与使用所有可用数据进行的正常训练达到了相同的精度。
由于在小数据集上训练的性能不佳,本文对一些数据增强操作进行了测试,这些操作受到了计算机视觉中使用的操作的启发,并发现它们有助于训练更全面的模型。在这里,本文详细介绍数据增强的细节。对于训练集中的给定句子,本文执行以下四种操作:随机实体替换,随机同义词替换,随机近义词替换,随机字删除。
我们将数据增强方法应用在训练数据集上,同样也将数据增强应用在测试资料集上,以获得更接近于集成训练的方法。这种方法又被称作测验时的数据增强(Test-Time Augmentation),也可作为和一般情况练习时的数据增强方法相区别。
第四章 融合注意力机制 Unified Transformer 的推理方法
4.1Encoder-Decoder 框架
Encoder-Decoder 模型,又称作编码-解码模型,本文使用的 Unified Transformer 模型属于 Encoder-Decoder 模型的一种。所谓编码,就是将输入序列转化成一个固定长度的向量;解码,就是将之前生成的固定向量再转化成输出序列。这是一种应用于 Seq2seq 问题的模型,Seq2seq 在问答系统中有着广泛应用。Seq2seq原理是,在翻译中输入的序列是待翻译文本,输出序列是翻译完成的文本。在问答系统中,输入序列就指的是输入的问题,输出序列则指的是答案。现有的自然语言处理的各项任务主要都是由当时最先进的架构模型 RNN 完成的,不过 RNN 也存在着一个非常严重的缺陷,即是由于 RNN 的第 i 个隐含状态 Si必须依赖于前一时间的隐含状态 Si-1,这也就造成了传统 RNN 不具有有效的同时运算的能力,这也很大的影响了模型的应用效果。
本文提出的 Unified Transformer 模型让这一问题得到了解决的希望, Unified Transformer 模型克服了传统 RNN 不能高效的同时运算的缺陷,从而很大的提高了模式的工作效率。
Unified Transformer 模型中分别包含了两种子功能,依次为编码器子功能和解码器子功能。编码器子模块一般是由 N 个功能完全一致的编码器层组成,而每个编码器层都是由多头的注意力层和平坦层组合而成,输入语句中的每一位字符都经过编码器子模块被处理为一个个长度相同的字词向量。而编码器层和解码器底层的区别是,在编码器底层少了一组编码器-解码器注意力子层,而解码器的主要职能则是负责在编码器输出的词字向量以及从解码器的输入解码出答案的词。
4.2 实验及结果分析
本节主要从试验环境、实验参数、试验评定指标以及试验结论四个方面分别加以研究分析。本章使用的数据集为百度公司发表的 DuC onv 数据集以及清华大学发表的KdC onv 数据集。
4.2.1 实验环境
本研究中,融合注意力机制的 Unified Transformer 的知识推理模型采用了 Pytorch 深度学习架构进行实现,其中所使用的实验环境支持 Nvidia cuda 深度学习平台。
本研究中使用的 python 版本为 3.7;Pytorch 版本为 1.7.0;cuda 版本为 11.0。本章所使用的具体的实验环境如表 4-1 所示:
第五章 总结与展望
5.2 展望
本文使用数据增强和改进后的记忆网络模型取得了一定的提升效果,但是仍然存在着部分问题需要改进,以期更好的提升知识推理的整体效果,为知识推理提供更有效的参考。
(1)Unified Transformer 模型仍然存在着问题,就是不能考虑到词的顺序,不能像 LSTM 那样考虑到词的先后顺序,也就是词位置信息。因此,下一步的工作室如何获取词的位置信息,从而提取序列信息。
(2)在智能问答中,除了算法模型的改进,数据集的质量也是十分重要,深度学习的模型学习训练的越多,效果也就越精准。因此,需要进一步完善扩充数据集,在各个领域都能有足够完善的数据集。
(3)由于人脑具有极强的自主学习和推理能力,学习和运用推理的过程也相对复杂,因此可以考虑在继续运用现有推理方法的基础上,从自己大脑中汲取所需要的知识、运用并通过自己的思考来实现推理的整个过程中去寻找一个突破口,探索一种类比于人脑推理的新型推理技术,这将有利于解决目前知识推理对大规模训练数据的严重依赖性问题以及进一步提高其推理的速度。
参考文献(略)