第1章 绪论
1.2 国内外研究现状
目标检测算法的划分非常清晰,因为有代表性的两大类算法完全采用了不同的思想。两类的区别就是一个采用了深度学习思想,而另一类没有采用。在深度学习没有被广泛应用的年代,人们普遍进行人工设计特征,然后采用未使用深度学习的方法进行检测,所以致使这类方法需要很强的人工经验,并且抗干扰性很差。2012 年之后,随着深度学习的繁荣发展,以深度卷积神经网络为代表的深度学习慢慢成为了业界主流,对比传统的方法,基于深度学习的方法特征表征能力更加健壮,更适合于大规模数据的处理,加之具有更好的抗干扰性,所以深度学习下的目标检测已经占据了主导地位。
时间继续前进到 2012 年,这一年 Krizhevsky 等[27]使用全新的方法:深度卷积神经网络参加当年的 ImageNet 大规模视觉识别大赛[28]。最终以毫无悬念的优势拿下了当年的冠军,充分证明了深度学习提取特征在分类任务上的有效性。从这开始,许多学者开始进入这个充满挑战的领域。时间又过去两年,Girshick 等[29]开始关注计算机视觉的另一基础:如何对目标进行高效检测,而 R-CNN 算法就在同年被其提出,这一算法也是一大经典,被视作将全新思维引入目标检测领域的巨作,其实从广义来看,R-CNN 与可变形组件模型 DPM 算法十分类似,二者差别所在就是前者使用了很深卷积层进行特征提取,最终生成特征的表达能力更加健壮。正因有非常健壮的特征表述能力,所以 R-CNN 可以提升最终的检测率,在 VOC 2010 测试集的实验结果更是验证了其优越性,53.7%的平均精度大幅提升了 VOC 2010 上的精度记录。
目录
第3章 快速 SSD 目标检测算法
3.1 SSD 主干结构分析
SSD 主干网络使用了 VGG 网络,而 VGG 网络全部都采用了一样大小的 33和 22 池化核,构造十分简单。一方面可以通过有效地增加深度来提升网络的性能,另一方面采用小卷积核、池化核的卷积层以及池化层使得参数极大的减少。SSD 算法中采用的是 VGG-16 网络,VGG-16 结构如图 3-1 所示。
图 3-1 VGG-16 结构图
......................
第5章 BBR-SSD 检测算法实际应用
5.1 实际应用的背景
随着人工智能的兴起,使用相关技术为各行各业赋能成为浪潮。本文研究的是目标检测通用领域,这是一个覆盖范围十分大的领域。现如今许多行业都需要目标检测技术来支撑,而目标检测也应该朝着实际应用发展,所以本文在这一章,将研究目标检测算法的实际应用,本章主要将模型应用到两个特定的实际应用场景中,一个是行人检测,另一个则是人脸检测,这两个都是目标检测的特定场景,并且都是属于非常热门的研究方向,本章将 BBR-SSD 应用到这两个场景中来证明本文提出模型的健壮性,同时也表明本文模型的强实用性。
行人检测是指使用计算机判断图像中是不是包括行人目标,如果包含行人的话就需要进行检测并标出其在图像中的位置坐标。随着城市生活中的监控越来越普及,特别是面向行人的监控应用层出不穷,针对行人跟踪和态势分析等应用成为科技发展的必然趋势,而这些应用都离不开行人检测技术做基础的支撑,所以行人检测这一领域有着巨大的应用研究价值。
人脸检测主要指检测并定位输入图像中所有的人脸,同时输出精确的人脸位置和精度,是人脸信息处理中重要的一环。高效且快速的人脸检测有着巨大的应用前景,可在大众视频、监控安全、人机交互等领域发挥巨大作用。
......................
结论
目标检测技术通过训练好的模型对输入的图像,视频帧中感兴趣部分进行快速、准确的定位与类别判断,具有非常大的实用价值。深度学习下的目标检测算法是当前计算机视觉界许多人都在研究的一大热门领域。本文针对当今一阶段检测网络速度提升以及检测结果不理想的问题,在深入研究本领域的各类有关文献之后,本文主要完成了下述几项工作:
(1)论述了现如今目标检测算法的国内外研究现状,对行业内的优秀算法和思路进行了概述,为本文下一步进行研究创新奠定了坚实基础。
(2)对神经网络的各类基础知识进行了细致的论述,并同时深入阐述和分析了深度学习框架下的主流目标检测算法,最后介绍了目标检测各类数据集以及深度学习模型的评价标准。
(3)针对深度学习下的目标检测中的速度不佳的问题,提出使用 Mobilenet 网络来取代 SSD 原始网络中的 VGG,以此来提升总体网络的检测速度,而最终实验表明可以将 FPS 从 SSD 时的 46 大幅提升到 59。
(4)针对目标检测中的精度问题,提出使用自适应空间特征融合来提升特征表述能力,首先针对快速 SSD 的卷积层进行类 FPN 操作,然后在 FPN 的基础上使用自适应空间特征融合,最后将自适应空间特征融合的特征和其余特征一起送入预测层,实验结果表明,采用此方法可以提升精度。然后针对目标检测通用的后处理阶段,提出使用高斯加权的 Soft-NMS 函数来代替 NMS 函数,以此来处理漏检问题。最后在 PASCAL VOC 上相对于 SSD 提升了 1.3 的 mAP,而 FPS 则是达到了 46.6,对比 SSD 的 46 也有了提升。而在 MS COCO 上 AP、AP50 以及 AP75 对比 SSD 分别提升了 2.8、3.1 和 3.2 个值。上述这些结果综合起来,很好的表明了BBR-SSD 的均衡可靠性。
(5)最后针对目标检测的应用进行了研究,将本文提出的算法模型分别应用在了当前非常热门的行人检测和人脸检测这两个目标检测实际应用领域,然后分别在这两个领域上的权威数据集上进行了测试,最终结果表明了本文算法应用到特定场景下具有很好的均衡可靠性。
参考文献(略)