上海论文网提供毕业论文和发表论文,专业服务20年。

融合多尺度特征与时空注意力的视频修复模型

  • 论文价格:150
  • 用途: 硕士毕业论文 Master Thesis
  • 作者:上海论文网
  • 点击次数:1
  • 论文字数:32633
  • 论文编号:
  • 日期:2024-10-24
  • 来源:上海论文网

计算机论文哪里有?本文介绍了一种基于联合时空注意力的视频修复模型。我们在提取特征层面,充分考虑并借鉴了待修复帧的相邻帧以及远处帧的特征信息,用于当前帧的修复。

第1章 绪论

1.3 论文主要的研究内容和创新点 现有的基于深度学习的模型往往都存在这样两个问题,第一,在采用不同方案对视频进行修复时,修复的视频仍然会出现模糊、伪影等问题;第二,为了获得高质量的视频修复结果意味着需要更深的网络来更好的捕获视频的特征信息,这也意味着模型会具有比较高的复杂度。

(1)为了解决视频修复时间复杂度大的问题和提高模型的泛化能力,本文提出了一种基于多尺度特征提取的视频修复模型。该模型采用“2D-3D-2D”的卷积神经网络架构进行端到端训练,加快了模型推理速度,并降低了视频修复的时间计算复杂度。为了提高模型的泛化能力,本研究采用多尺度特征提取方法,使用不同尺度大小的3D卷积核捕捉不同尺度的特征,并通过组合不同大小的卷积核获得更丰富的特征表示,模型能够捕捉细节和局部信息,并增强对全局和抽象特征的感知能力。总而言之,我们提出使用不同大小的卷积核构建多尺度特征提取模块,并采用2D-3D-2D架构直接端到端的训练我们的模型。实验证明,该模型在视频修复任务中取得了良好的效果,并具有较好的泛化能力。

(2)为了解决生成视频模糊不一致的问题,本文介绍了一种基于联合时空注意力的视频修复模型。该模型利用编码器和解码器结构来修复视频,并采用时空特征提取模块,其包括时间注意力、通道注意力和空间注意力模块三个分支。这些分支模块能够建模全局特征依赖、局部特征依赖以及通道依赖信息,实现有效的特征提取。通过将不同分支的特征相加,并由解码器恢复到原视频大小,生成高质量的修复视频。总之,我们首次提出了时间注意力模块,并将其用于构建联合时空注意力模块来进行视频修复。经过实验证明,我们的模型在视频修复方面取得不错的效果。

计算机论文怎么写

第3章 基于多尺度特征提取的视频修复模型

3.1 引言

从图像分类到视频分类,视频分类的研究者们提出了一种比较直观的方法,就是直接使用3D卷积核进行端到端的训练。我们认为,视频修复视频分类这两个任务的输入对象都是视频,而这两个研究方向不同之处在于,它们通过网络模型所得到的输出不一样。视频分类只需要得到一个类别,而视频修复则需要重建整个视频。为此,我们参考视频分类的方法,直接使用3D卷积神经网络对视频修复进行端到端的训练。我们尝试采用这样的策略,但是我们很快就碰到了另一个问题,那就是直接采用3D卷积,但是其所带来的参数是巨大的,并且难以训练。这是因为一方面我们需要不断下采样进行特征提取,另一方面我们还需要将提取的特征不断上采样,以生成原视频大小的新视频。相比视频分类,我们在最后重建视频这一部分需要更多的计算量。

为了解决这个问题,我们借鉴了Wang C等人[33]的想法,采用部分3D卷积。具体来说,我们首先对视频进行编码,再对编码后的视频采用3D卷积神经网络进行更深层次的特征提取,最后进一步学习如何更好的修复破损视频。

第4章 基于联合时空注意力的视频修复模型

4.1 引言

现有视频修复的研究者都尝试从图像修复领域获得灵感,但是,相比图像修复而言,视频修复面临着更大的挑战。单从构造的角度,视频像是图像的延伸,即视频多了一个时间维度。在面对被损坏的视频具有复杂运动的情况下,由于视频是会实时发生变化的,这就导致了视频修复的难度远大于图像修复。针对从时间维度更好的提取视频特征,研究人员采用了不同的办法。有的研究人员通过计算前后帧之间的光流信息来获得时间维度的变化特征,再将这些特征作为时间信息参考,用于指导普通卷积网络模型进行修复,如3D-2D[33]模型。有的研究者直接使用3D卷积神经网络直接进行端到端处理,这类方法实现起来比较简单,只需要在二维卷积的基础上再添加一个维度即可,但是三维卷积核也给模型带来了更多的参数量,这导致网络训练推理的速度变慢。而为了进一步降低参数量,有的研究者[54]干脆直接将3D卷积分离为一个时间卷积和一个空间卷积,用这种方式在降低参数量的情况下,达到和3D卷积一样的效果。还有研究人员使用transformer的变体模型,将视频中的每一帧都先通过二维卷积神经网络进行高维特征提取操作,再使用自注意力机制提取全局时间信息。但是,这个方法不仅没有考虑视频帧的低维空间信息,更是不可避免的将所有高维特征都参与到计算当中,这显然大大的提高了参数量,增加了模型计算的时间复杂度。上面这些方法在相当一部分研究中都取得了不错的效果,但是这些方法要么模型参数量大导致模型训练时间长,要么模型对视频的时间信息和空间信息特征的提取利用不充分。

4.2 模型介绍

本章提出的基于联合时空注意力的视频修复模型,采用编码器解码器结构。首先使用卷积神经网络对视频进行逐帧编码,再采用联合时空注意力模块,从时间层面、通道层面和空间层面等三个维度对视频进行特征提取建模,学习视频整体信息,并对缺失区域的进行特征补全,最后由解码器模块将特征进行上采样操作,最后生成修复好的视频。

计算机论文参考

视频编码器主要是采用2D卷积神经网络模块,对每个视频帧的低级像素进行编码,以得到更深层次的特征,它是通过堆叠具有不同步幅的卷积块来构成的。同样地,视频解码器与视频编码器的工作正好相反,解码器通过对深层次的特征进行连续的上采样操作,来获得同原视频帧一样的尺寸。而联合时空注意力模块才是模型的核心,它被设计为从多个视频帧的高级特征中学习当前视频帧中所有缺失区域像素。

第5章 总结与展望

5.2 展望

针对视频中大面积缺失的情况,我们的模型仍然会存在闪烁和伪影等情况。其实这也说明了,视频修复目前对于那些大面积缺失的部分仍然没有太多好的办法。在实际应用过程中,我们也许可以考虑采用逐步修复的方式来针对大面积缺失的情况,然后进行不断迭代。此外,针对我们模型目前修复的运动的视频,我们的修复结果仍然存在一定的问题,这跟模型对视频的整体把握有关,未来我们将致力于提出更深层次的模型和使用更适合视频修复的损失函数用于提取视频特征,以进一步获得更好的视频修复结果。

此外,为了满足人眼对高分辨率视频的要求,目前的视频修复算法受到模型大小的限制,对于高分辨率视频的修复效果并不令人满意。因此,需要进一步优化我们的网络模型结构,使其可以良好的处理高分辨率视频修复的问题。同时,我们可以进一步考虑设计轻量化的模型结构,这有助于在移动设备上进行部署。此外,建立视频修复专用的数据集也非常重要。目前,许多视频修复算法使用常见的视频语义分割数据集,并且没有统一的掩码数据集,这对研究人员用于比较和评估不同视频修复算法产生了一定的困扰。

参考文献(略)

123
限时特价,全文150.00元,获取完整文章,请点击立即购买,付款后系统自动下载

也可输入商品号自助下载

下载

微信支付

查看订单详情

输入商品号下载

1,点击按钮复制下方QQ号!!
2,打开QQ >> 添加好友/群
3,粘贴QQ,完成添加!!