本文是计算机论文,文本自动分类技术作为大规模文本数据处理与组织的关键技术,在复杂多变的文本数据环境下,面临着诸多严峻的挑战,传统的单标签文本分类方法已经不能完全满足人们的需求。因此,亟需以多标签文本分类方法逐步取代单标签文本分类方法。近年来,随着机器学习技术的发展和以神经网络为代表的深度学习技术的兴起,人们在语音、图像和文本处理等等方面的研究取得了新的突破,呈现出广阔的发展空间。因此,本文针对多标签文本分类任务开展了关键技术研究,围绕多标签文本分类任务中文本特征提取、多标签文本分类算法以及多标签文本分类结果的不确定性这三个关键技术,进行了大量的尝试,并提出了相应的解决方案,取得了一定的创新成果。本文主要工作和贡献总结如下:(1)该模型将LDA主题模型与长短期记忆网络LSTM模型相结合,使得该模型能够同时表达文本的全局和局部语义特征,在不同的层次上实现文本特征的提取,包含了更多的语义信息,使得深度主题特征提取模型能够较好地提取文本的特征表达,实验表明,不同层次上的特征融合(全局特征和局部特征)方法使得特征表达更加全面,并有利于模型提取高层次上的文本语义信息,并将该特征提取模型与基于机器学习的传统多标签文本分类方法进行集成,可以获得更好的分类效果因此,建立标签间相关模型的多标签文本分类算法是提髙多标签文本分类性能的理想方法。探讨如何有效地建立标签间的协作关系以及如何有效地建立标签间的依赖性,也是值得思考的一个问题。
.........
1绪论
多标签文本分类是自然语言处理领域的一个基本研究课题,其目的是将一个给定文本划分为若干个相关类别的标签。作为一种常用的数据分析与处理方法,多标签文本分类技术在海量数据分析与处理中得到了广泛的应用。例如,在新闻检索领域,尤其是在移动互联网中的新闻检索,多标签文本分类可以为新闻数据建立索引机制,从而提高了新闻检索的效率,提高了用户体验的质量;对于海量的商品评论信息,多标签文本分类有助于市场分析师从客户基础中发现不同的客户群,并利用客户评论信息挖掘出不同客户的潜在商业需求;在“知乎”问答论坛上,多标签文本分类技术能够根据问题的内容自动地为其添加话题标签。此外,购物网站上的海量商品的个性化推荐、数字图书馆中图书的分类以及互联网上的海量weB文档分类等都可以看到多标签文本分类方法的身影。由此可以看出,海量数据的多标签文本分类问题与我们的生活密切相关,具有广泛的实际应用价值。然而,在实际应用中,由于多义对象的存在使得多标签文本分类问题相对于单标签和多类别文本分类问题而言更为困难,因为多义对象通常要求同时对一个文本和多个标签进行对应。解决多标签文本分类问题的通常方法是分别观察每个文本,然后将多标签文本分类问题转化为多组单标签文本分类问题。该方法的核心是在文本序列和每个标签之间建立语义关联,采用一种对多个标签分别进行独立预测的方法,忽略了标签间的语义关联。但在有大量原始标签的情况下,由于标签之间存在指数倍增的组合,使得分类空间变得十分复杂,导致数据稀疏和运算量严重不足,即使采用限制分类数目的策略,也会极大地限制模型的推广能力和实用性,而且分类效果不佳,给多标签文本分类模型的实际应用带来前所未有的挑战。
机器学习解决问题的处理流程
.....
2相关的理论基础知识
2.1机器学习概述
多标签文本分类是自然语言处理的一项基础和重要工作,广泛应用于信息组织、检索、管理、数据挖掘等领域。本文以丰富的文本信息为背景,主要研究文本的多标签分类问题,并运用了机器学习、深度学习和统计学习等技术对数据进行有效分类。相关的理论基础知识包括机器学习、深度学习、贝叶斯深度学习、文本特征提取、多标签文本分类算法以及性能评价指标等,以下分节介绍机器学习是人工智能的一个分支,是人工智能的实现方式。对于所给的数据和问题,利用机器学习的方法,计算机能够对已知数据进行分析和处理,从而获得新的知识和技能,是一种强大的数据处理工具。目前机器学习已经被广泛地应用于数据挖掘、计算机视觉、语音和手写识别、生物特征识别、搜索引擎、医学诊断和自然语言处理等领域。本节主要介绍机器学习、深度学习和贝叶斯深度学习。在理论上,具有较多参数的模型具有较高的复杂性和较大的“容量”,这意味着它可以完成更复杂的学习任务。但在一般情况下,复杂模型的训练效率较低,且容易陷入过拟合问题,因此难以应用。随着云计算和大数据时代的到来,计算能力的大幅提高能够缓解低效率的训练,以“深度学习”为代表的复杂模型开始受到重视。深度学习对于机器学习是革命性的,在许多基准任务中有很好的表现。但深度学习要实现高性能,往往需要大量的数据集,通常有数百万个样本,尽管训练数据的大量增加可以降低过拟合的风险,但在实际应用中,可能没有大量的标注数据集,数据量也比较小,在一些昂贵的数据难以获得或成本很高的情况下,过拟合的向题十分严重,对于小型数据集,传统的机器学习算法甚至优于深度学习;缺乏表征不确定性的能力,也不能充分利用概率论所研究的良好工具。随着贝叶斯方法与深度学习相结合的工具和技术的最新发展,这已经开始发生了很大的变化。这两个领域的交集在过去几年中引起了学者的极大兴趣,引入了利用贝叶斯技术的新型深度学习模型以及融合了深度学习元素的贝叶斯深度学习得到了越来越多的重视。
2.2文本特征提取
在机器学习的实际应用中,数据通常具有多种形式。像图像、声音等数据可以很自然地表示为连续向量,但是对语言的表示却很难找到一种恰当的方式。文本特征提取是自然语言处理的基础,也是文本处理的核心内容之一。在传统特征提取方法中,主要依靠专家的知识和经验,通过制定相应的特征提取准则,使得特征提取过程耗时且效率低下,同时文本数据中存在大量的高维、不相关、冗余的特征,这将直接影响特征提取的质量,从而影响多标签文本的效果。文本的特征提取方法可以被分为两大类:无监督式特征提取和有监督式特征提取。本节主要介绍与本文特征提取有关的代表性方法,无监督特征提取的主题模型、有监督特征提取的循环神经网络以及预训练模型BERT。绝大多数自然语言处理任务中,面对数量有限的训练数据,预训练词向量确实能提高模型的准确率,能够在一定程度上提升模型的性能,但是像Worder2vec以及Glove这类模型都存在一个共同的问题,也就是Worder2vec或Glove方式只是把预训练好的信息放到了网络模型的第一层,而网络模型剩余部分依旧需要从头开始进行训练,所以无论是Word2vec,Glove或是其他相关的模型,它们都属于一种单层或浅层方法。尽管使用词嵌入向量的做法在许多下游任务中都是有帮助的,但是它无法采集到那些也许更有价值或者说可能发挥更大作用的高层次的信息。利用词嵌入向量来初始化网络模型需要从头开始学习,这时候模型不仅仅是要学会排除每一个词的歧义,还需要理解由此组成的句子序列本身存在的含义,这也是语言理解的核心内容,它需要针对许多复杂的语言现象建立模型,我们常见的例如有语义合成性、一词多义性、首语重复、长期依赖等。由此看来,利用这些浅层表示方法来初始化自然语言处理模型,要想让模型获得较好的性能,仍然需要大量的训练样本。文本分类和文本检索技术是信息检索和文本挖掘的重要基础,其主要任务是在预先给定的类别标记集合下,根据文本内容判定它的类别。文本分类和检索在自然语言处理与理解、信息组织与管理、内容信息过滤等领域都着广泛的应用。文本分类问题是指通过对已知类别的样本集学习,预测未知类别的样本。在文本分类任务中,根据文档标签所属类别的数量,可分为单标签(多类别)文本分类和多标签文本分类。对于单标签文本分类,目前已经有了成熟的机器学习和集成学习方法,能够较好地解决这种分类问题。但是对于多标签文本分类来说,尤其是在数据分布不均匀、标签类别众多的情况下,传统的文本分类方法己经不能满足要求,迫切需要探索新的分类方法。
3面向多标签文本分类的深度主题特征提取.................41
3.1问题的描述............41
3.2深度主题特征提取模型............42
3.3实验............48
3.4本章小结............58
4基于编码解码器与深度主题特征提取的多标签文本分类............59
4.1问题的描述............59
4.2基于编码解码器与深度主题特征提取的多标签文本分类模型............60
4.3实验............68
5基于深度主题特征的多标签文本分类不确定性研究............77
5.1问题的描述............77
5.2贝叶斯神经网络与不确定性............78
......
5基于深度主题特征的多标签文本分类不确定性研究
5.1问题的描述
目前,深度学习已经在许多领域得到了很好的应用,如汽车无人驾驶中使用的图像语义分割技术,它已经达到了很高的精度,但我们都知道,特斯拉无人驾驶汽车在过去的一段时间里发生了多起事故,最终是因为机器学习算法把浅色的卡车误认为天空。这个偶然的意外暴露了一个问题,即传统的深度学习算法几乎只能给出一个特定的结果,却无法给出模型本身对结果的置信度。实际上,在文本分类问题中,通常会将Softmax函数添加到神经网络的最后一层来获得概率,但是可以想象如下的情形:假设我们已经有了一个经过训练的文本分类器模型,在测试阶段,我们可以预测新文本的类别,如果这个文本是分类器模型已经学习过的类别,那么这个模型就可以非常有把握地返回预测。然而,如果这个文本是分类模型从来没有看到过的类别,并且迫使分类器识别一个新的类别,那么我们最好使用较低的可信度来返回预测值。由于Softmax函数的限制,在预测阶段,只能给出1或0,而Softmax函数的特性使得神经网络在这种情况下无法输出结果[0.5,0.5],来表示我们不确定的结果。因此,我们希望机器学习系统能够表达某些预测的不确定性,从而确定算法模型的边界。由于文本数据中的噪声和缺失、文本数据预处理过程中的信息增益、神经网络中的参数敏感性、训练数据与测试数据间的差异等问题的存在,使得多标签文本分类任务中存在普遍的不确定性。因此要求自然语言处理技术具有对不确定性建模和推理能力。如何度量和理解多标签文本分类任务中不确定性,使其更好的指导模型改进和模型应用已经成为当前自然语言处理领域的一个重要方向。
5.2贝叶斯神经网络与不确定性
深度神经网络迄今为止在多标签文本分类任务中已经取得了十分优异的成绩,然而由于文本数据中的噪声和缺失、文本数据预处理过程中的信息増益、神经网络中的参数敏感性、训练数据与测试数据间的差异等问题的存在,使得多标签文本分类任务中存在普遍的不确定性。因此要求自然语言处理技术具有对不确定性建模和推理能力。如何度量和理解多标签文本分类任务中不确定性,使其更好的指导模型改进和模型应用已经成为当前自然语言处理领域的一个重要方向[135,136]。随着贝叶斯方法与深度学习相结合的工具和技术的最新发展,这两个领域的交集在过去几年中引起了学者的极大兴趣,引入了利用贝叶斯技术的新型深度学习模型以及融合了深度学习元素的贝叶斯模型。贝叶斯神经网络不仅可以减少信息不完全带来的误差,还可以评估文本分类任务中的不确定性。近年来,许多研究人员开展了神经网络中的不确定性研究和其中的概率模型。本节主要介绍贝叶斯神经网络与不确定性的研究。客观世界中绝大部分现象都是不确定的。确定的结果往往是对不确定性现象进行计算和概括得来的。贝叶斯神经网络中的不确定性是衡量模型对其预测结果确定程度的指标。在贝叶斯神经网络模型中,存在两种主要的不确定性类型:偶然不确定性和认知不确定性。由于多标签文本分类过程中的不确定性因素是影响分类结果准确率和模型鲁棒性的主要原因,因此求解不确定性问题是多标签文本分类任务中的一个重要环节。
基于神经网络的多标签文本分类
.....
6结论与展望
基于编码解码器与深度主题特征提取的多标签文本分类目前多标签分类文本方法通常将每种标签作为独立的二分类处理,没有充分考虑标签间的相关性,特别是在大量标签数据集中的情况下,传统的分类方法难以满足这一要求,针对多标签文本分类中的标签相关性问题,本文在深度主题特征提取的基础上,提出了一种基于编码解码器架构的多标签文本分类算法,编码器网络采用深度主题特征提取模型获得具有文本深层语义特征的语义编码向量,解码器网络将多标签文本分类任务看作是一个序列的生成过程,从而有效地缓解了多标签文本分类中标签相关性问题,通过引入Attention机制,突出关键输入对输出的影响,实验结果表明,该模型在标签数目较多的情况下,能够提高多标签文本分类的性能;(3)基于深度主题特征提取的多标签文本分类不确定性研究多标签文本分类结果不确定性度量方法的不足,使得决策者在决策时面临困境,从而得出错误的结论。为了对多标签文本分类任务的分类结果进行评价,本文在深度主题特征提取的基础上,提出了一种基于深度主题特征的多标签文本分类不确定性度量模型,该模型分别从数据特征和模型特征两个方面对多标签文本分类任务进行不确定性度量。实验结果表明,本文模型与传统神经网络仅输出预测结果不同,该模型可以进一步给出每个分类任务的同方差偶然不确定性和分类结果的不确定性度量,从而使得决策者更好地进行决策。通过本论文的研究工作,本文对多标签文本分类问题有了较为全面的认识,尤其是在信息丰富、文本类型复杂多样、面临更大挑战的背景下,不断发展的机器学习技术为这些问题的解决提供了有力的支持。
参考文献(略)
参考文献(略)