上海论文网提供毕业论文和发表论文,专业服务20年。

基于深度学习的多标签分类方法探讨[计算机论文]

  • 论文价格:150
  • 用途: 硕士毕业论文 Master Thesis
  • 作者:上海论文网
  • 点击次数:126
  • 论文字数:35966
  • 论文编号:el2022011022572824732
  • 日期:2022-01-10
  • 来源:上海论文网

计算机硕士论文有范文参考吗?本文提出了一种新颖的语义-标签多粒度注意力模型。该模型利用堆叠的扩张卷积模型来构建文本序列的多粒度语义特征表示。本文采用图注意力网络来建模标签之间复杂的相关性。我们还设计了一种多粒度注意力机制来实现多个层次的语义特征表示对标签的加权。总之,所提出的模型完全摆脱了对固定的标签顺序的限制,显著的提高了多标签分类性能。

第 1 章 绪论

1.2  国内外研究现状
随着人工智能领域的发展,多标签分类技术的出现在一定程度上代替了传统的人工标注的方式。到目前为止,多标签分类技术已经从经典的机器学习算法阶段过渡到基于神经网络的深度学习模型阶段。人们利用计算机技术对数据进行批量地自动化标注,这摆脱了人工标记效率低下且准确率不稳定的窘境。目前解决多标签分类任务的模型主要可分为三类:问题转化方法、算法转化方法和神经网络建模方法。
问题转化方法是早期经典的多标签分类方法之一,它主动地忽略了标签之间的相关性,将其转化成多个单标签分类任务。因此,现有的先进且成熟的单标签分类算法都能适用。与其他方法相比,问题转化方法在策略上更加灵活且容易训练。在这种问题转化思路中,其中较为有名的模型包括 Binary  Relevance(BR)[7]、Label-Powerset(LP)[2]和 Classifier Chains(CC)[8]。BR 算法将多标签分类任务分解,并为所有标签都训练了一个二元分类器。通过聚合所有分类器的产生结果来实现多标签的预测。由于 BR 算法为每一个标签都优化训练了一个分类器,因此该算法具有高度并行的优点。但是当标签数量较多和样本标签组合较为复杂时,该算法要浪费大量不必要的计算力。此外,单独的为每个标签分配一个分类器,而忽略了标签之间的相关性,这导致其始终无法达到令人满意的性能。LP 算法则是通过将每一个独一无二的标签组合看作一个全新的分类类别,从而实现了旧标签的多标签分类任务到新类别的多分类问题的转化。尽管 LP 方法能够准确的建模多标签数据集中所有标签组合的相关性,但是它忽略了在测试阶段可能会出现不存在于训练集的标签组合。此外,当这种建模方法面对标签组合较多的情况,与标签组合相关的实例数量较少,且彼此之间会出现严重的类别不平衡现象。CC 算法将多标签分类任务转化成一个二元分类问题的连续链。通过考虑前一个分类器的预测结果,来实现当前分类器的标签预测。这种处理方法有效地对较为复杂的标签相关性进行建模,但仍然在计算效率和性能方面受到大数量的标签和样本的挑战。
另一种较为可行的解决方案是算法转化方法,这种方法通过扩展特定的机器学习算法,直接处理多标签分类任务。例如,ML-DT[9]算法通过在传统的决策树C4.5 算法的基础上构建多标签熵来进行分类。Rank-SVM[10]算法则是为每一个标签分配一个相应的 SVM 分类器,通过使用最大边际策略和优化的核方法来降低经验排序损失。ML-KNN[11]借鉴了现有的有监督学习算法 KNN,通过统计未标注实例的邻居所对应的标签集合,并根据最大后验原理实现未标注实例的标签预测。然而,这种算法同样忽略了标签之间复杂的相关性,导致始终无法达到较优的泛化能力。

计算机硕士论文

............................

第 3 章 基于层次化序列到序列模型的多标签分类方法

1  研究动机
多标签文本分类是自然语言处理(NLP)中一项非常重要且高难度的任务。它比传统二分类或多分类更复杂,因为标签类别之间通常具有一定的依赖关系。在现实生活中,一个典型的例子:新闻网站上文章报道的往往有”政治“、”经济“、”文化“等多个标签类别,这样浏览者就可以根据偏好来选择需要的新闻信息,从而排除无关信息的干扰。
作为一项极其富有现实意义的 NLP 任务,人们提出了许多方法,并逐渐取得了令人满意的效果。Binary Relevance (BR)是最早的方法之一,它将该任务建模为多个单标签分类问题[7],并取得了一定的效果。为了捕获标签之间的依赖关系,Read 等人使用了一个 Classifier  Chains(CC)将该任务转化成一系列依赖性的分类问题链[8]。Lafferty 和 Li 等人分别采用条件随机场[46]和条件伯努利混合[47]来处理标签依赖关系。然而,上述方法仅适用于中小规模的数据集,难以应用在大规模的数据集上。
随着深度学习技术的快速进步,一些神经网络模型被用于解决这一问题,并取得了一定的进展[48]。Kurata  等人提出的模型利用词嵌入向量和卷积神经网络(CNN)来捕捉标签依赖关系并解决这个任务[14]。 Chen 等人则通过 CNN 和循环神经网络(RNN)从文本中提取全局和局部的语义信息[17]。Yeh 等人提出了一种规范相关自编码器(Canonical  Correlated  AutoEncoder,C2AE)来推导标签嵌入的潜在空间,并输出标签特征表示[49]。然而,这些方法没有充分考虑到从源文本中获取标签之间依赖关系并提取可解释信息来进行分类的问题。
............................

第 4 章 基于语义-标签多粒度注意力模型的多标签分类方法

4.1  研究动机
多标签分类(MLC)是为给定的输入样本分配一个或多个标签的任务。它在现实世界中具有广阔的应用场景,如文档注释[60]、标签推荐[61]、视频标注[62]以及目标检测[63,64]。由于标签之间通常具有复杂的依赖关系,这使得该任务在自然语言处理领域中极其富有挑战性。
作为一项重要的自然语言处理任务,有许多方法得到了应用。早期的一些研究工作包括:Binary  Relevance  (BR)[7]、Classifier Chains  (CC)[8]和 Label  Powerset (LP)[2]等,都取得了不错的效果。然而,它们都没有充分考虑到标签之间的相关性对于预测标签的影响程度。随着基于人工神经网络的深度学习取得了巨大的进步,人们开始尝试利用经典的神经网络架构处理多标签分类问题。例如,Zhang[12]等人利用全连接神经网络和成对的排序损失函数来处理多标签分类任务。Chen[17]等人提出了将 CNN 和 RNN 相结合来抽取文本的语义信息,并对标签的依赖关系进行高阶建模。这些方法在整体上的性能是令人满意的,但是对于标签之间相关性的方面仍然考虑不够充分。
随着序列到序列(Seq2Seq)架构和注意力机制在神经机器翻译任务上取得的巨大成功。Nam、Yang、Lin[21,23,50]等人尝试将它们用于多标签分类任务,并取得了非常先进的效果。基于注意力机制的 Seq2Seq 模型使用 RNN 或长短时记忆网络(LSTM)作为编码器捕获输入序列中的上下文信息,在解码端同样使用RNN 或 LSTM 生成标签序列并预测标签。而注意力机制的应用考虑了文本序列中不同位置的内容对标签序列的贡献。然而,对于 RNN 或 LSTM 这类序列模型,标签序列只能是顺序生成的。这使得 Seq2Seq 架构在时间效率上受到限制。此外,对于具体的多标签分类任务,理想情况下,输出标签之间是不应当考虑顺序因素的。而以上模型在训练过程中标签排序是固定下来的(通常为降序),这导致在测试时模型往往会产生不稳定的预测,进一步降低了模型的性能和可解释性。
.............................

4.2  模型结构

图 4.1 模型的整体结构图

基于语义-标签多粒度注意力模型的结构包含四个部分:一个堆叠的扩张卷积[23,31,66]编码模块,一个建模标签相关性的标签图注意力模块,一个多粒度注意力机制和带有 Sigmoid 函数的与输入标签嵌入矩阵权值共享全连接层。在介绍它们之前,我们首先定义一些本章所提出的方法要用到的符号,并描述所提出的建模多标签分类任务的方法。
........................

第 5 章 总结与展望

5.2  展望
本文针对目前多标签分类任务上的一些限制和不足,进行了一系列的研究工作,具有一定的有效效果和应用价值,但仍然不能较为全面的解决多标签分类任务。在未来,可以围绕以下几个方面进行深入研究:
(1)现有建模标签之间相关性的方法都是将所有标签视为并列关系。然而,在实际的应用场景中,标签之间的依赖关系还可以是从属关系、包含关系。因此,对标签之间的相关性进行更为细致的解析建模,成为目前亟待解决的问题。
(2)现有模型在解决多标签分类任务时,都没有充分考虑标签与文本内容内部的位置对应关系。如何精确地定位标签在序列中的位置,实现文本语义和标签语义之间的”对齐“,有赖于未来的进一步研究。
(3)由于多标签分类任务的复杂性,导致所有基于深度学习的模型都要耗费巨大的计算力和训练时间。尽管本文的模型能够完全实现部分或完全地并行化计算,有效降低了该任务的复杂度,但当面对数据样本巨大且标签数量较多的情况时,仍然显得力不从心。在未来,如何利用深度学习技术建立轻量级的多标签分类模型值得深入研究。
参考文献(略)

123
限时特价,全文150.00元,获取完整文章,请点击立即购买,付款后系统自动下载

也可输入商品号自助下载

下载

微信支付

查看订单详情

输入商品号下载

1,点击按钮复制下方QQ号!!
2,打开QQ >> 添加好友/群
3,粘贴QQ,完成添加!!