计算机论文哪里有?本文在抽取器和生成器两个阶段,对所选取的传统算法提出了一系列新的改进方法,包括提出了在预处理阶段加入预排序过程。相对于基础的TextRank算法,对相似度计算公式进行了调整,且在最后的节点得分公式中将词频、与标题相似度、段间位置等因素按照特定的比例加入到权重系数中参与得分计算。
1 引言
1.3 研究现状
自1958年以来,自动文本摘要生成技术领域经历了多个阶段,期间产生了两种不同产生方式的摘要生成技术:抽取式和生成式两种自动文本摘要生成技术[3]。后续,又有部分研究将两种方法进行结合,同时使用抽取式和生成式方法,即混合型自动摘要生成技术。在计算机技术飞速发展的二十一世纪,不断的有新的模型和思路涌现出来,10年代后期,包括自动文本摘要领域在内的自然语言处理领域开始着重研究语言模型(Language Model, LM),希望通过对模型进行理想的预训练,使之可以在仅仅经过微调环节之后便可以适配不同的下游任务。目前,最新提出的GPT(Generative Pre-trained Transformer)[4]等大语言模型开始考虑通过极大规模的训练参数(GPT3.0已达到1750亿参数、GPT4.0已达到百万亿级别参数)进行训练,摆脱微调环节,直接对下游任务进行适配,这一思路的提出也极大地拓宽了自然语言处理领域下所有分支任务的研究广度。但是由于其模型训练规模巨大,正常的研究工作无法满足其条件需求,所以类似GPT这种大规模语言模型的研究工作还无法完全的普及。
3 基于TextRank的混合式摘要生成模型
3.1 数据来源
本次实验的数据集以公共数据集为基础,在当前主流的英文自动文摘数据集CNN/Daily Mail、New York Times Annotated Corpus(NYT)及文本摘要专用会议数据集DUC/TAC中选取出达到一定长度的文本进行实验。在多个数据集中选取出超过5个段落的文本,且都含有人工生成的摘要进行后续评价使用。
(1) CNN/Daily Mail
CNN/Daily Mail数据集是Hermann等人[32]从美国有线新闻网和每日邮报网中收集的大约100万条新闻数据信息,且每条新闻都会通过人工撰写的方式,提供摘要作为后续评测的参考指标。其包含匿名和非匿名两个版本。Nallapati等人在Hermann的基础上构建了CNN/Daily Mail文本摘要数据集。
(2) Gigaword
Gigaword语料库[33]大约有950万篇新闻文章,主要由多个国际著名新闻通讯社的英文资讯组成。后来Rush等人[34]在带注解的英文Gigaword数据集进行了整理,得到了380万个文本对的训练集、18.9万的验证集。
(3) New York Times
New York Times数据集是经纽约时报的文章预处理后构成[35],它包含了1987-2007年间数百万篇文章,研究人员对其内容进行了后续的处理,建立了归一化索引表,使其更适合进行抽取式摘要生成的任务。
4 基于SummaRuNNer的混合式摘要生成模型
4.1 模型建立
本章所使用的基于SummaRuNNer[43]的混合式摘要生成模型,模型所使用的数据集与前期的预处理及预训练环节,皆沿用上一章所使用的整体流程,数据集在当前主流的英文自动文摘数据集CNN/Daily Mail、New York Times Annotated Corpus(NYT)及文本摘要领域专用的会议数据集DUC/TAC中选取出达到一定长度的文本进行实验。预处理阶段同样增加额外的预排序环节,初步筛选掉大量的与主旨无关的无用文本信息。在预训练阶段,因为BERT和PEGASUS两种模型拥有更符合自动文本摘要下游任务要求的预训练任务,针对于自动文本摘要领域的下游任务微调具有更好的效果,所以本章节模型考虑使用与上一章节的模型相同的预训练模型,即BERT和PEGASUS模型。
对于本章模型的整体流程,首先采用与上一章节相同的前期处理工作,将抽取器阶段的模型由基于图排序的TextRank模型替换为基于序列标注的SummaRuNNer模型,并对抽取器阶段模型进行改进。然后将抽取器阶段输出的信息再次输入到生成器阶段的模型中进行最终摘要的输出。生成器阶段的模型考虑继续使用上一章节的基于Seq2Seq-Attention的模型结构结合指针生成网络中的指针和覆盖率机制。综上所述,混合式模型的整体流程基本框架仍采用预处理、预训练、抽取器和生成器的顺序按阶段进行,额外在生成器阶段输出摘要的同时,对摘要进行评价。在各阶段的内部进行不同的调整与改进。混合式模型整体流程如图4-1所示。
4.2 评价与实验
4.2.1 实验数据及环境
本章的混合式模型使用与上一章节相同的数据集进行,在当前主流的英文自动文摘数据集CNN/Daily Mail、NYT、Gigaword及文本摘要领域专用的会议数据集DUC/TAC中选取出达到一定长度的文本进行实验。
本章节实验的实验环境条件为:采用Windows10.1系统,Intel(R) Core(TM) i7-10750H CPU @ 2.60GHz处理器,16G内存,NVIDIA GeForce RTX 2060显卡,python3.6.3、pytorch实验架构,Pycharm编辑器。
4.2.2 评价指标 本章节实验的评价指标仍采用上一章节中所介绍的ROUGE评价指标,同时在自动评价体系为主的前提下,通过综合指标和人工评估指标作为辅助评价。
ROUGE-1和ROUGE-2主要考虑生成的摘要与人工参考摘要之间的1元组和2元组的召回率情况,将两个摘要之间的相同1元组和2元组数量作为衡量生成摘要质量的指标。ROUGE-L中的L指的是最长公共子序列,ROUGE-L考虑生成的摘要与人工参考摘要中最长的公共子序列,用子序列的长度进行评分,其可以有效地评价生成摘要捕捉参考摘要中的长距离依赖关系的能力。综合评价指标是在自动评价指标ROUGE的基础上,额外的增加依据信息熵和交叉熵的两个指标,冗余度和相关度。将二者结合到原始的ROUGE计算公式当中,进行综合评定。同时,由于文本摘要生成领域的任务具有极强的主观性判断,所以人为评判生成的摘要好坏具有很强的说服性,所以在自动评价指标的基础上,额外进行了人工评价实验来辅助证明本文的混合式模型生成的摘要具有更好的质量,更符合人类的阅读习惯与需求。本次实验选取的具体人工评价指标为信息量、简洁性和可读性三个方面。
5 总结与展望
5.2 未来展望
目前,自然语言处理领域的主要研究工作皆放在如何优化语言模型上,对于自动文本摘要生成领域,目前优秀的模型皆是考虑选择从较新的预训练语言模型如BERT、PEGASUS等转到最新的大规模语言模型。其主要是通过将原有的预训练语言模型的规模进行与原先规模非同量级地增大,从而使模型的能力极大地提升,而且科研人员发现当规模参数达到一定时,模型会具有原先的小模型不存在的能力,但是大语言模型虽然能够对最终结果有一个质的提升,但是同样伴随着的是常人无法接受的算力、时间等因素。如最新的GPT4.0已经达到了百万亿级别的参数规模,这也使得绝大部分的研究人员无法进行参考效仿,所以,虽然传统的自动文本摘要生成模型无法达到GPT4.0等大语言模型的效果,但是综合考虑普遍适用性、时间、算力等因素,传统模型的改进仍有其自身的研究价值。所以,如何将最新的大语言模型理念与传统的自动文本摘要生成模型进行相互结合可以是未来工作的一个研究方向。在后续研究工作中,可以优先考虑以下几个问题:
(1)考虑新的评价体系。自动文本摘要的评价体系较为单一,自2004年ROUGE评价体系提出将原BLEU模型侧重准确率调整为侧重召回率后,一直沿用至今,基本大多数自动文本摘要领域的文章都在使用ROUGE-1、ROUGE-2和ROUGE-L三个评价指标来进行评价。后续评价体系的提出和改进皆没有达到预期的效果。包括本文提出改进后的综合评价指标也仍然是建立在ROUGE体系的基础上额外进行的调整,并没有摆脱当前自动评价指标中“更接近于人工参考摘要便得更高分”的理念,且ROUGE评价体系有死板,不够灵活,没有考虑语义层次上的匹配等缺点需要去解决。
(2)增加数据集数量及内容范围。当前的主流自然语言处理数据集对不同行业不同类型的文本没有分别的侧重,针对不同的文本类型无法更快速的识别出该类文本可能出现的重要信息类型,无法更好的针对如在金融、新闻、教育、体育资讯、气象播报等领域进行应用。本文的主要应用研究领域是在教育领域中英语考试中的阅读文本,其本身便是由其他新闻等文本进行摘选后生成的文章,对于二次摘选的内容,可能其更倾向于学生是否能够对中心思想理解足够深刻,那么对于摘要模型对主旨性的把握能力就有更高的侧重性,对于相应的预训练数据集的需求也会有所不同。能否整理出适合不同领域类型的文本信息数据集也是个值得研究的问题。
参考文献(略)