上海论文网提供毕业论文和发表论文,专业服务20年。

基于图神经网络的文本分类算法思考

  • 论文价格:150
  • 用途: 硕士毕业论文 Master Thesis
  • 作者:上海论文网
  • 点击次数:1
  • 论文字数:30232
  • 论文编号:
  • 日期:2023-01-15
  • 来源:上海论文网

计算机论文哪里有?本文针对图卷积神经网络在聚合节点信息时忽略了节点间的差异问题,为了避免噪声节点对节点信息提取的干扰,将文档,词语,标签看作不同类节点,考虑不同邻居节点的重要性,使用了基于类型级和节点级的双级注意力机制,并与异质图进行融合,使得模型能够减少噪声节点的影响,增强与节点相关联的节点的重要性。

第1章  绪论

1.2 国内外研究现状

文本分类是自然语言处理的一个基础任务之一,受到众多学者的关注。早期文本分类方法根据领域知识,利用一系列预定义的规则来对文档进行分类。随着机器学习理论的不断完善,机器学习模型引发了学者们的巨大关注,通过利用标注样本,有效地学习到了文本和标签之间的关联。传统机器学习模型难以适用大规模数据,模型拓展性差,人们开始逐渐聚焦深度学习模型。文本分类方法可以大致分为两大类:1、基于传统的机器学习文本分类。2、基于深度学习的文本分类。本节按照以上分类体系进行展开描述。

计算机论文怎么写

1.2.1传统机器学习文本分类

基于机器学习的文本分类方法可大致分为两步:对数据提取特征,将提取的特征通过分类器来做分类预测。特征工程主要包括预处理,特征提取,文本表示。预处理主要是去除一些不重要的字或词,特征提取是选择一些有益于分类结果的特征,并给这些特征项赋予合理的权重。文本表示是将文本进行数值化的表达,是特征工程中最重要的部分。经典文本分类的文本表示方法主要有基于向量空间模型[4][5][6][7]的方法。在基于机器学习的文本分类的分类过程中,朴素贝叶斯,逻辑回归[8],决策树,支持向量机等方法被用做分类器使用。虽然基于机器学习的文本分类方法只需要较少的数据就能取得不错的效果,但仍存在费时费力,文本表示能力差等问题。

1.2.2深度学习文本分类

随着深度学习的发展,自然语言处理研究者们开始将解决文本问题的方法聚焦到神经网络模型上。神经网络能自动提取特征,具有较强的表达能力,在解决文本分类问题上有着较好的效果。基于深度学习的文本分类方法离不开词向量的提出,词向量被广泛用于文本分类中。

第3章  基于异质图卷积网络的文本分类方法

3.1 模型设计思路

近年来,图卷积神经网络受到了众多学者的关注,并被广泛用于自然语言处理领域。基于图卷积神经网络的文本分类方法也层出不穷,然而仍面临以下问题:第一,以往文本图卷积模型在构图过程中通常只考虑了词节点和文档节点,该构图过程忽略了标签信息,忽略了输入文档和标签之间的语义关系,造成部分监督信息丢失。第二,以往的文本图卷积模型在信息传播过程中将各节点同等考虑,缺乏对节点重要性的区分,容易引入较多的噪声节点或者噪声信息,使得节点在聚合邻居信息时受限,提取特征能力下降。第三:基于异构图卷积神经网络得到的文档节点表示区分性不够强,使得具有不同标签的文档表示可能较为相似,相同标签的文档表示可能相似性不够大。

针对问题一,为了有效利用文本蕴含的信息,本文将标签节点加入到文本图卷积模型构图过程中,并且提出了新的文本图构建策略,以便捕获到文档特征中更多的信息。

针对问题二,为了考虑不同节点的重要性,借鉴文献[29]的思想,引入了双级注意力模块,并与上述构建的异质图进行了融合,使得节点能够提取到与节点相关的更重要信息,以得到更好的文档表示用于模型分类。

针对问题三,为了使得得到的文档节点表示更具有区分性与判别力,设计了一种对比损失,使得文档与对应的标签更接近,与其他的标签互相分开。

最终构成了融合标签,双级注意力和对比损失的的异质图卷积网络模型HGCNLA。

第4章 实验与分析

4.1 实验数据与实验环境

4.1.1实验数据集

本文选取了文本分类四个常用的公开数据集,R8数据集,R52数据集,Ohsumed数据集以及MR数据集,数据集的统计信息如下表4.1所示:

计算机论文参考

R8和R52都来自Reuters,是一个新闻分类数据集。其中R8的标签类别数为8,共有7674个文档,训练集包含5485条新闻,测试集包含2189条 。R52的标签类别数为52,共有9100条文档,其中训练集包含6532条新闻,测试集包含2568条新闻。MR是一个电影评论数据集,标签类别数为2,每个文档只包含一个句子,训练集包含7108条影评,测试集包含3554条影评。Ohsumed语料库是一个医学文献的书目数据库,该语料库包含1991年国家医学图书馆的前20,000份摘要中13,929份比较特有的心血管疾病摘要。该语料库包含23个疾病类别,有些文档是单标签,有些文档是多标签。由于我们关注的是单标签文本分类,因此不包括属于多个类别的文档,因此最终保留了仅属于一个类别的7400个文档。其中训练集包含3357条病历,测试集包含4043条病历。

4.2 对比算法

本文采取了文本分类中一些经典的模型来进行对比,模型结果取运行5次的平均值。公式节 (下一节) 对比模型具体如下所示:

⚫ TF+IDF+LR[8]:该模型采用TF-IDF来表示文本,将得到的特征向量通过LR模型来进行分类。

⚫ TextCNN[9]:该模型首次将CNN模型引入到自然语言处理中,并且将预训练的词向量引入到文本分类中。

⚫ Bi-LSTM[16]:该模型将预训练的词向量输入到Bi-LSTM中,之后被用于文本分类。

⚫ FastText[19]:该模型是一个简单有效的模型。它将文档中单词的词嵌入做一次平均作为文档的表示,然后将得到的文档表示向量通过线性分类器来进行分类。

⚫ LEAM[49]:该模型是一个注意力模型 ,它将单词和标签表示向量整合到同一个特征空间,利用注意力框架来衡量文本表示向量和标签表示向量之间的兼容性,该注意力保证了与文档标签相关的单词权重更高。

⚫ Graph-CNN-C[26] :该模型为一个图CNN模型,它基于单词表示向量的相似度在图上进行卷积。

⚫ TextGCN[27]:该模型首次将图卷积应用在文本分类中,它将特征矩阵X,文本图的边权重矩阵A输入到两层GCN中得到节点的表示向量,最后经过softmax层进行分类。

第5章 总结与展望

5.2 工作展望

本文提出的融合标签和双级注意力机制的图卷积网络模型取得了较好的效果,但仍存在着以下不足:

1、本文提出的方法是基于单标签的文本分类,可扩展到多标签问题,如何扩展到多标签文本分类中是本文的下一个研究方向。

2、本文提出的模型是传导式模型。模型在建立边的权重矩阵时,需要输入整个语料库的文档,如果有新文档加入时,无法完成直接预测,需要重新构建矩阵。构建基于子图或者其他的归纳式模型是本文的下一个研究方向。

3、本文提出的模型未与现在热门的大规模预训练模型BERT等结合,如何将BERT模型整合到本文模型中是本文的下一个研究方向。

参考文献(略)



123
限时特价,全文150.00元,获取完整文章,请点击立即购买,付款后系统自动下载

也可输入商品号自助下载

下载

微信支付

查看订单详情

输入商品号下载

1,点击按钮复制下方QQ号!!
2,打开QQ >> 添加好友/群
3,粘贴QQ,完成添加!!