计算机论文哪里有?本文在 SSD 目标检测模型的基础上,引入多尺度跨层融合,有效的注意力机制和有利于扩大感受野的通道分割融合模块,在检测部分使用更有效的 Soft-NMS 算法,提出了基于特征融合和注意力机制的目标检测算法。
第一章 绪论
1.2 目标检测的研究现状
2012 年,AlexN et[3]在 ImageN et 竞赛中脱颖而出,获得榜首。深度神经网络算法首次在 ImageN et 数据集上取得瞩目的成绩,越来越多的学者开始将深度学习应用于物体检测领域。随后各种结构的深度神经网络模型被提出,数据集的检测精确率一次次被提升。
2014 年,VggN et[4]和 GoogleN et[5]同时被提出,两者均加深了网络的深度。VggN et 利用网络深度的优势提取了更多丰富的特征,而 GoogleN et 同时增加了网络的宽度和深度,使用 Inception 结构的四个分支融合了不同尺度的特征信息,并添加 1×1 卷积核来达到降维的目的,减少模型的参数量。从此,加深网络深度的同时减少参数量成为学者的研究方向之一。
2015 年,He 等人提出了 ResN et[6],利用短连接的方式,解决了由于网络加深而出现的梯度消失导致网络无法收敛的问题。从此,ResN et 作为目标检测模型的主干网络被广泛应用,其简单的模块化设计可以轻松适应各种任务。
近年来,目标检测算法主要分为两大类:基于边框回归的一阶段网络和基于候选区域的两阶段网络。一阶段网络产生候选框时,分类和回归的过程同步进行,如 YOLO[7]系列和 SSD[8]系列网络。而两阶段网络首先产生区域候选框,然后提取每个候选框的特征,产生最终的位置框并预测其类别,代表性网络有 R-CNN[9],Fast R-CNN[10]和 Faster R-CNN[11]。在此基础上,学者通过改进优化特征提取网络进一步获得更高质量的特征,通过添加新的模块实现更好地检测效果,通过改变训练方式得到更优的权重。网络模型的改进使检测的精度和速度被一次次提升。
第三章 基于多尺度特征融合和注意力机制的目标检测算法
3.1 引言
近年来,目标检测已经被广泛应用到现实生活中,如车牌检测、航空侦察、智能安防等领域。由于深度学习的出现,目标检测算法取得了飞速的发展,检测精度和速度均得到显著地提升。在 RCNN[9]、YOLO[7]、SSD[8]三大系列经典网络模型的基础上,学者通过改进连接方式、添加新的模块等方法改进网络模型,进一步提升检测性能。但现实生活的环境复杂,存在遮挡、光照、目标尺度小等问题,导致目标检测依然是一个具有挑战的课题。
现实生活中,图像中不同物体实例由于距离远近、本身面积大小等原因,尺度范围往往很大,其中大尺度的物体具有面积大和特征丰富的特点,容易被检测,而小尺度的物体由于可用的特征少,难以被检测。小目标在经过多次卷积操作后,其包含的信息量进一步减少,甚至消失,导致小目标的检测精度一直偏低,网络模型的整体精度也难以提升。SSD[8]使用 VGG16[4]作为提取特征的主干网络,分别在 6 个不同尺度大小的特征图上,独立预测不同大小的物体,来实现多尺度目标检测,获得了不错的效果。但是缺乏对不同特征层信息的融合,同时也没有利用低层卷积特征,对小目标的检测效果较差。
第四章 基于通道分组融合的目标检测算法研究
4.1 引言
近年来,由于深度学习的进步和一些现存的数据集具有高质量的注释,使得基于卷积神经网络的目标检测模型得到了很好的发展。通过使用一阶段和两阶段物体检测器,它们在精度和效率方面的性能都得到了显著提高。
在目标检测算法研究中,CNN提取网络特征起着至关重要的作用,CNN所学到的特征被期待具有良好的鲁棒性和便于后期检测的高分辨率。一些研究也证实了这一事实,例如 ResN et[6]使用更深层次的神经网络得到包含丰富信息的特征,特征金字塔通过融合高低层的信息提取更优的特征。然而,这些获取特征的方法需要大量的计算成本,导致推理速度缓慢。
感受野的应用在深度神经网络算法中是非常重要的,它表示输出层的一个元素点对应输入层特征区域的大小,感受野越大包含越多输入图像的上下文信息,对于后续的检测任务更有利,而且研究表明感受野中心位置区域的像素对输出的有效影响更大。传统的网络算法通过堆叠多个卷积层而得到更大的感受野,这种方式不仅需要大量的计算成本,而且感受野的范围也是固定的,当需要检测大尺度的物体时,人工设置的感受野范围不一定可以满足检测的要求。扩张卷积的提出在一定程度上解决了这一问题,与普通卷积相比,卷积核的大小未发生变化,仅仅在普通卷积的基础上,添加了一个超参数,称为扩张率,表示扩张的大小。由于卷积核的大小相同,在网络模型中的参数量是不变的。增加感受野的另一种方法是池化,但是池化操作之后需要经过上采样,相比之下,扩张卷积是在不损失信息的情况下增大了感受野。对于扩张卷积,它的另一个优点是,它保证了输出特征图的大小不会发生变化,不会增加不必要的操作。2020 年,HS-ResN et[81]提出了一个新的方法,利用多个 split和融合操作在不增多参数量的情况下得到了更大的感受野,在获得更好更强的特征表达的同时保证有竞争力的推理速度。
4.2 相关文献
(1) 与通道分组相关的目标检测算法
ResN eX t引入了组与基数的概念,将通道按不同的组分别做卷积操作,获取更加丰富的特征;Res2Net引入了尺度与宽度的概念,将通道 Split后分级做卷积操作,提升了模型的感受野;ResN eS t采用了更细致的注意力机制对通道做了加权处理。HS-ResN et 发现使用更多的分组操作或者使用更细致的 attention 操作都会大大增加模型的耗时,大大降低网络结构的性价比;而多级的 Split 操作可以将不同的感受野信息做更好的融合,推理速度也没有变慢很多,从而达到只增加很少的耗时情况下提升更多的精度效果。
(2) 关于感受野的目标检测算法
SPPNet引入空间金字塔变换层,对每一个特征图进行划分得到固定大小的特征向量,并列的不同尺度的最大池化层处理的特征图融合,从而得到不同的感受野;RFB 由于受到 Inception 的启发,通过在 Inception 的基础上添加扩张卷积层(dilatedconvolution),实现了增大感受野的目的;可变性卷积则在感受野中加入可学习得到的偏移量,自适应地调整感受区域的空间分布,使得感受野更接近物体的实际形态。ASPP利用感受野的概念来捕捉多尺度信息,它在顶部特征图上应用几个具有不同收缩率的并行卷积来改变离中心的采样距离,这在语义分割中被证明是有效的。
第五章 总结与展望
5.2研究展望
本文以 SSD 算法为基础,结合一些有效的方法和模块实现了性能更优的目标检测算法。虽然在特征融合、注意力重点关注有效区域、感受野等方面获得了一点性能的提升,在一定程度上提高了检测模型的鲁棒性和平均检测性能,但是本文提出的算法在现实生活应用时仍存在很多不足之处,在一些特殊的领域并不适用。在未来几年,目标检测算法需要进一步研究的问题:
1)现实生活中,由于无人机航拍的普及和自动驾驶的推广使用对实时检测提出了更高的要求。然而,为了提取更好的特征,目标检测模型的设计越来越复杂,特别是网络的深度不断加深,导致模型的检测推理速度变慢,在很多应用领域不能满足实际的需求。如何在不增加计算复杂度的情况下获得更丰富的特征以实现更好的检测性能,探索轻量级网络是未来研究的一个重点方向。
2)本文所用的训练集和测试集均是标准数据集,场景较为简单,和现实世界中的图像并不相符,真实生活中存在各种更加复杂的环境,例如,无人机航拍具有尺度范围更大、视角特殊、多角度、背景复杂度高等特殊性,导致航空遥感图像目标检测是一个具有挑战性的问题。还有天气影响的图像模糊,背景对目标的遮挡和密集场景中对象之间的相互严重遮挡等特殊的场景。这些特定的场景对目标检测网络提出了更高的要求,未来需要探索特殊场景所需要的特定算法。
3)随着硬件技术的升级,现在获得的图像倾向于大尺度高分辨率的图像,导致计算成本增加、检测网络的运行效率降低等问题,普通的检测网络不能很好满足对这些图像的检测需求。如何平衡获得高分辨率图像的检测精度和内存成本、时间成本的关系,使高分辨率的图像可以得到有效的利用,值得研究者关注。
参考文献(略)