本文是计算机论文,此外,本论文主要对视频检索流程中特征提取和相似度匹配这两部分进行研究,在特征提取部分提出了多级KNN分类算法,而在相似度匹配部分,则通过构建标签向量的词袋模型来实现,主要研究成果如下:1)本论文对近年来国内外学者对视频检索技术发展的研究进行综述,分析了视频检索技术的整体流程,总结并归纳了相关领域学者对检索技术每个步骤的研究现状,同时列举出当前研究的不足之处,为本论文之后的研究开展打下基础。2)本论文对改进RBF神经网路的视频检索系统整体方案进行设计,通过示意图的方式展示了系统整体的研究思路。主要流程分为特征提取和相似度匹配两部分,特征提取部分包含中心向量提取、标签向量构建,以及改进RBF神经网络这三部分。由于视频数据爆炸式增长,视频检索技术受到越来越多的关注,从海量的视频数据中检索人们需要的内容是当前的研究热点之一。而传统的基于文本的视频检索技术已经无法适应当前数据量,基于内容的视频检索技术和基于深度学习的视频检索技术日益受到学者们的广泛关注。
......
第1章绪论
全文共分为五章,每章论文内容安排如下:第一章为绪论,主要内容为本论文的研究背景及意义,以及国内外在视频检索领域的研究现状,之后对本论文的研究内容和论文结构进行分析。第二章是对视频检索算法进行概述,首先说明了视频数据的特点,并且按照结构将视频分为四层,之后从镜头边界检测、关键帧提取、特征提取和相似度计算这几个角度对视频检索技术进行描述,最后利用公式推导出视频检索领域常用的评价标准。第三章对改进RBF神经网络视频检索算法的设计方案进行分析,主要分析特征提取方案和相似度比对方案,特征提取方案中主要对中心向量提取方案和标签向量构建方案以及改进RBF神经网络进行研究。第四章对改进RBF神经网络视频检索算法的设计方案进行实现,通过流程图对中心向量提取和标签向量构建以及图片相似度比对方案进行分析,并展示部分核心代码。最后对特征提取整体流程进行说明,为后续实验打下基础。第五章介绍实验的内容并进行分析以及对视频检索系统进行实现,首先介绍实验中所用的数据集和硬件环境,之后研究了中心向量切片的提取实验并通过复原操作来判定实验结果的好坏,最后将本论文与基于神经网络的方法进行比对,并通过P-R曲线和ROC曲线对图像检索的结果进行验证。对于视频检索系统本章通过说明系统中每个界面的功能和操作步骤进行分析并对视频检索系统的功能进行测试。
..........
第2章视频检索算法概述
2.1视频数据的特点
视频是一种复杂的数据流,包含文本、声音、图像于一体,视频不仅有静态信息,还包含动态信息,视频可以表现出事物发生的空间和时间信息[16]。因此,由于视频具有复杂的特性,对视频处理比较繁琐和费时,需要提前对视频进行结构化处理,再进行后续操作。视频结构可以分为四层,自上而下分别为视频层、场景层、镜头层和图像帧,如图2-1所示。视频层包含n组场景,每组场景包含文本、声音和图像信息构成了我们观看的视频;场景层可以看作多组相同镜头的组合,每一个场景包含相同的镜头;镜头指的是摄像机在不切镜的情况下持续拍出的内容,而镜头又可以被分割成一帧一帧的图像,一个镜头内的帧具有相同的特征,区别仅仅是微小的变化,若帧与下一帧特征出现较大的变化,则认为进行了镜头的切换,由于视频数据量庞大,往往需要在众多的帧中提取出关键帧来代表这一镜头,从而简化对视频操作的复杂程度。例如,AVI、MPEG、Rmvb等。因此在对视频进行操作前进行预处理是十分重要的步骤。而语义信息体现在视频包含很多的听觉和视觉信息,每个人观看视频都带有主观性,因此在检索过程中如何跨越语义鸿沟一直以来都是研究的重点和难点。
2.2视频检索的关键技术
陈曦[22]等人根据现有的关于阈值的镜头边界检测方法,提出了基于互信息量的镜头边界检测算法,该算法的思想是基于HSV空间不均匀分布分块直方图求取帧间互信息量作为差异值,并结合相应的阈值策略,实现对镜头的切换,以及常见渐变的镜头边界检测,该方法可以解决渐变边界特征变化不明显、持续时间不确定等问题。但是该方法在整体检测效果中还不是很理想,是因为突变检测中潜在突变帧类型众多,这会导致闪光帧检测效率低下,影响突变检测结果。另外,还有研究表明,可以利用自适应阈值的方法完成镜头边界检测。霍奕[23]等人提出了一种基于渐进二分策略的自适应阈值视频镜头边界检测方法,主要用于解决目前通用的算法无法提供准确阈值计算公式的问题。该研究团队所提出的自适应阈值方法可以根据视频自身利用神经网络模型训练得到阈值计算参数,来提高检测的准确性。另外,该方法还采用了一种新颖的渐进二分法检测算法,对少数帧进行检测从而得到镜头边界,减少了时间复杂度;还可以不考虑渐变的类型,对所有类型的渐变采用突变检测的方法进行检测,提高了检测的准确度。镜头边界检测是视频检索技术中的关键步骤之一,决定了提取出的特征好坏进而影响整体检索的结果。镜头边界目前仍然存在很多问题,镜头特征参数选取的好坏以及对于阈值的设定都会影响检索结果。
...........
第3章改进RBF视频检索系统方案设计.....17
3.1视频检索系统整体方案设计.................17
3.2特征提取部分方案设计....18
第4章改进RBF视频检索系统实现.............32
4.1提取中心向量方案实现....32
4.2特征提取方案实现............35
4.3相似度匹配方案实现........36
4.4本章小结.......37
第5章实验分析与软件实现.....38
5.1实验环境.......38
5.2图像检索实验..................39
5.3硬件仿真实验....................44
........
第5章实验分析与软件实现
5.1实验环境
从图中例子可知,本论文决定输出8张与输入图片相似度最高的图片并将其降序排列,前5张图片都是与输入图片内容相似但是角度不同,第6张图片虽然内容不同但是角度一致,因此这张图片被排到了第6顺位,而第7顺位虽然内容与输入图片一致,但是由于光线以及角度问题,它的相似程度没有那么高,而最后一个顺位只是角度大体相近而内容完全不同的图片。本论文将实验结果与基于AlexNet网络[33]的图像检索系统和基于VGG16网络[34]的图像检索系统在相同数据集中进行了比对,以上两种网络都是在tensorflow框架下,并且网络运行环境与本论文提出的算法一致,三种算法的检索精度结果如表5-1所示。通过表5-1可以看出三种网络在检索精度方面相差不大,本论文所提出的网络精度在86.2%,略好于AlexNet的84.3%和VGG16的85.5%。但是在计算时间上,同样的数据集和运行环境下,本论文所提出的网络较其他两种网络提升大约30%左右,这是由于网络在检索过程中,利用中心向量切片的概念进行图像的检索,并且采用曼哈顿距离计算,用加法运算代替了AlexNet和VGG16网络中的卷积运算,使得计算复杂度下降,便于后期的硬件实现。
5.2图像检索实验
本实验首先通过VOC数据作为训练集,训练出大量的中心向量并保存在改进RBF神经网络的中间层中;之后将自定义是数据集中取出500张图片作为训练数据,250张图片作为测试数据,期望目标是在输入一张测试图片后,输出与其最为相近的多张图片,并按照相似程度排序。评价指标是计算输出结果的查全率和查准率,并画出对应的P-R图和ROC图。构建中心向量时实验中不规定具体数目,而是将1000张图片输入程序,程序进行中心向量的提取,将所有中心向量提取完毕,从而确定具体数目。实验中1000张图片最终得到的中心向量切片数目为4900左右,然后将500张训练图片输入进网络,用中心向量切片进行替换,之后用测试集对系统进行测试并输出与其相似度最高的几组图片,最终输出结果如图5-3所示。
.........
总结
本论文还引入标签向量的概念,将中心切片与原图之间进行联系,标签向量主要包括图片的名称、位置、通道号、id等信息,一个标签向量对应一张中心切片向量,这样方便对图像进行查找以及显示操作。展望视频检索技术目前属于研究热点,大多数成果能够取得良好的检索结果。视频检索技术硬件化同样是研究的重点之一,硬件化可以提升算法的计算能力,并且由于硬件并行化的特点,可以大幅缩短计算时间。本论文致力于研究一种便于硬件化实现的检索算法,对于今后研究有以下几点的展望:1)提取中心向量是本论文检索方法中最重要的步骤之一,对于将提取中心向量的方法代替神经网络中特征提取方法的可行性还需要进一步研究。下一阶段还需在扩充数据库的基础上加大实验量,以便进行更多实验验证,以对算法进行进一步改进。2)标签向量的作用除了可以简化相似度匹配过程,还可以用于查找原始图像。下一阶段还需进一步对标签向量的构建进行推敲,以便算法更快进行相似度匹配的过程。3)本论文在特征提取部分将乘法运算替换为加法运算,从理论上可以解决乘法运算使得硬件耗能增加导致计算能力下降的问题。下一步工作是在硬件中实现视频检索算法,充分发挥硬件并行计算的优势,提升视频检索的整体性能。
参考文献(略)
参考文献(略)