上海论文网提供毕业论文和发表论文,专业服务20年。

面向数据标记缺失的分类学习方法思考

  • 论文价格:150
  • 用途: 硕士毕业论文 Master Thesis
  • 作者:上海论文网
  • 点击次数:1
  • 论文字数:28566
  • 论文编号:
  • 日期:2022-06-27
  • 来源:上海论文网

计算机论文哪里有?本文通过学习有标签样本,充分利用有标签样本的知识挖掘出每一类样本和其他各个类之间的关系,使分类器的预测结果更具适应性,从而进行有效迁移并帮助提升分类性能。与现有的几个基础方法相比,实证结果表明,BDDAN 可以获得比较好的迁移学习性能,得到令人满意的结果。

第一章 绪论

1.2  研究现状

机器学习根据训练样本有无标记,可以分成三类,分别是监督学习[9-11](Supervised Learning , SL ), 无 监 督 学 习[12-14]( Unsupervised  Learning , UL ) 和 半 监 督 学 习[15-17](Semi-supervised Learning,SSL)。在监督学习中,给定样本集𝑋 = {𝑥1, 𝑥2, … , 𝑥𝑛}及其对应的标签集𝑌 = {𝑦1, 𝑦2, … , 𝑦𝑛},监督学习的任务是从样本和标记之间的对应关系(𝑥𝑖, 𝑦𝑖)中学习一个函数:𝑓:𝑋 → 𝑌,来预测目标样本。根据模型的输出结果,可以将监督学习划分为分类问题[18]和回归问题[19]。如果输出结果是离散值,这个问题就属于分类问题;如果输出结果是连续值,这个问题就属于回归问题。监督学习只利用有标签样本,通过监督学习训练的模型,其泛化能力通常较弱,只有在充足的有标签样本上进行训练才能获得性能较好的模型。在无监督学习中,仅给定无标记样本集𝑋 = {𝑥1, 𝑥2, … , 𝑥𝑛},通过对这些无标记样本进行训练,探索样本的隐藏结构,挖掘目标数据的信息。无监督学习的本质是相似的数据应该群聚在一起,这种现象被称为聚类(Clustering)[20],代表方法有 EM 算法[21](Expectation  Maximum)和K-Means 算法[22]等。无监督学习仅利用无标记样本,缺少确定的标签知识,可能导致模型的预 测精度不高, 性能较差 。 

计算机论文怎么写

第三章 半监督学习的逐点流形正则化

3.1  问题描述

在实际应用中,无标记数据是低成本易收集的,而标记数据的获取通常是昂贵且耗时的,特别是涉及到人工的部分。在半监督学习的过程中,不仅能够利用少量的有标记数据学习监督信息,还能利用大量的无标记数据来学习与探索数据潜在的结构信息,通常这些信息被认为是有助于学习的。聚类假设和流形假设是半监督分类学习中两种常用的数据分布假设。聚类假设,通过引导决策边界经过聚簇间的低密度区域,假定相似的样本可能拥有相同的类别标签。流形假设,通过假设数据处于低维空间的流形分布,推出图中相似的样本应该共享相似的输出。为了能够有效地利用无标记数据,几乎所有的半监督分类方法都显式或隐式地采用这两种数据分布假设。由于 MR 在学习过程中遵循了流形假设,因此 MR 具有平滑特性,也就是说,流形图上样本的分类输出应该都是平滑的。该方法将每个样本对看作是一个对象,约束位于流形图很小的邻域上的样本应该具有相似的分类结果。但是,光滑性具有逐点性质,也就是说样本和近邻点之间都应该有相关的性质,逐点光滑性应该适用于流形假设 MR 中并能够帮助改进模型的性能。

针对上述问题,提出了一种约束单个局部样本的逐点 MR 半监督分类学习算法。在这个新方法中,考虑到了每一个样本的光滑特性,此外,考虑到了每一个样本的重要性,采用局部密度来表示重要程度,从而促进 MR 框架的预测准确性。

第四章 双向判别域适应网络

4.1 问题描述

迁移学习通常存在两个问题,一是数据特征分布不同的问题,二是负迁移问题。针对第一个问题,现阶段大多数的解决方法是整体拉近源域和目标域之间的距离,从而减小源域和目标域的数据特征分布差异,但是容易导致负迁移。在拉近样本之间的距离时,忽略了不同类别的样本之间的关系,这可能会降低特征的判别性从而影响分类性能,而且多数方法并没有充分利用伪标签知识。

基于以上问题,我们提出了一种双向判别域适应网络 BDDAN(Bidirectional Discriminant Domain Adaptive Network)方法。该方法通过对特征分布进行对齐的同时引入相同类别和不同类别之间的相似性关系信息,充分利用有标签样本的知识,从而进行知识的有效迁移。

BDDAN 利用域对抗网络,不仅通过源域的样本进行数据变换,而且利用目标域的有标签样本实现图像变换,通过变换的图像加强两个域的学习。在解决特征分布差异的同时引入了目标域的信息,利用两个不同的分类器引入一致性损失函数,以获得更加准确的预测结果。最后,挖掘出每一类样本和其他各个类之间的相似关系,使分类器的预测结果更具适应性和准确性。

4.2 相关工作

4.2.1 生成对抗网络

生成对抗网络 GAN(Generative Adversarial Networks)[70]是一种深度学习模型,该模型利用框架中的生成模型 G(Generative Model)和判别模型 D(Discriminative Model)进行对抗训练,最后获得满意的输出。在 GAN 理论中,G 和 D 并不要求都是神经网络,但是在实际应用中,G 和 D 一般都需要采用深度神经网络。由于神经网络具有不确定性,需要采用合适的方法进行学习训练以获得性能良好的 GAN 模型,否则容易产生不理想的输出结果。生成对抗网络 GAN 的基本原理以图 4.1 为例进行说明。假设有两个神经网络模型 G 和 D,其中,G 是一个生成图片的生成器,它接收随机噪声 z 并利用这个噪声来生成图片,生成的图片可以记作 G(z)。D 是一个具有判别能力的判别器,它能够鉴别出一张图片的真假。向判别模型D 输入图片 x,模型 D 的输出为 D(x),它表示图片 x 是真图的概率。如果 D(x)的值为 1,就表示 x 是真实的图片,如果 D(x)值为 0,则表示 x 不是真实的图片。在 GAN 网络模型的训练过程中,生成器 G 的目标是尽可能生成接近真实的图片欺骗判别器 D,使得判别器 D 辨别不出生成的图片的真假。判别器 D 的目标则是尽可能将生成器 G 生成的图片和真实的图片辨别出来。此时,G 和 D 就组成了一个动态的对抗过程。最终生成器 G 可以生成能够以假乱真的图片 G(z),而判别器 D 辨别不出 G 生成的图片是真还是假,即 D(G(z))=0.5。生成对抗网络GAN 最常用来进行图像生成,比如超分辨率任务和语义分割等,或者用 GAN 生成的图像来做数据增强。

计算机论文参考

第五章 总结与展望

5.1  总结

随着大数据时代的来临,各行各业时时刻刻都在产生数据,不仅数据的数量产生了巨大的增长,新的数据类型也在不断出现。在这样的发展环境下,机器学习[1-2]作为一种有效的数据处理技术,受到了广泛关注。数据的增多,使得机器学习和深度学习[3-4]能够利用如此海量的信息进行模型训练,但是与此同时可能还存在着一个重要的问题:标记数据不足。然而,对数据进行人工标注是一个耗时耗力的过程,这给模型的训练和更新带来了挑战,目前为止还没有有效的方法来解决这一问题。

本文首先对半监督学习和迁移学习的研究背景以及国内外研究现状进行了详细的阐述,接着又介绍了半监督分类的相关背景知识和现有的经典方法,并从非深度学习和深度学习这两个方面介绍了迁移学习,最后针对现阶段已有的半监督分类方法和迁移学习方法存在的问题提出了新的想法。

首先,提出了一种逐点的 MR 半监督学习框架 PW_MR,该算法能够保留数据的逐点平滑特性,另外,和样本对 MR 方法不同,该方法考虑的是单个样本的平滑性而不是样本对平滑性,还在算法框架中引入了单个样本的重要性,对单个样本进行加权。最终实验结果表明提出的 PW_MR 方法比样本对 MR 方法具有更好的分类效果。

其次,提出了一种双向判别域适应网络(BDDAN)方法,为了减小域间隔,利用域对抗网络,通过两个生成器分别对图像作映射变换,从而加强对两个域的学习。利用目标域的信息进行特征分布对齐的同时,使用两个不同的分类器引入一致性损失函数,提高分类的可靠性。另外,通过学习有标签样本,充分利用有标签样本的知识挖掘出每一类样本和其他各个类之间的关系,使分类器的预测结果更具适应性,从而进行有效迁移并帮助提升分类性能。与现有的几个基础方法相比,实证结果表明,BDDAN 可以获得比较好的迁移学习性能,得到令人满意的结果。

总之,本文提出的PW_MR方法和BDDAN方法都在一定程度上改进了图像分类的效果,取得了较为满意的结果。

参考文献(略)

123
限时特价,全文150.00元,获取完整文章,请点击立即购买,付款后系统自动下载

也可输入商品号自助下载

下载

微信支付

查看订单详情

输入商品号下载

1,点击按钮复制下方QQ号!!
2,打开QQ >> 添加好友/群
3,粘贴QQ,完成添加!!