本文是一篇硕士论文,硕士学位论文的摘要,是对论文研究内容的高度概括,其他人会根据摘要检索一篇硕士学位论文,因此摘要应包括:对问题及研究目的的描述、对使用的方法和研究过程进行的简要介绍、对研究结论的简要概括等内容。摘要应具有独立性、自明性,应是一篇完整的论文。(以上内容来自百度百科)今天为大家推荐一篇硕士论文,供大家参考。
第 1 章 绪 论
随着互联网和多媒体技术的迅速发展以及移动终端设备的广泛使用,涌现出大量的视频,音乐舞蹈视频作为一种传播广泛的视频,正逐渐受到研究者的青睐。对于舞蹈视频进行有效的片段检索,可以帮助舞蹈老师进行舞蹈的编排,辅助舞蹈的教学工作等。舞蹈视频片段检索技术的突破必将有力地推动舞蹈的传承和发展.具有十分重要的理论意义和实际价值。
1.1 研究背景与意义
现如今,网络的普及和科技不断地革新发展,使不同类型的资源在网络上广为传播,在这个信息化的时代,视频成为主要的传播形式。海量的视频资源正通过不同的途径被大家浏览。用户对视频的需求不同,如何快速地在如此之多的视频中检索出心目中想要的视频成为一个问题。图像检索是较早被大家所熟知的视频检索技术,它通过人工标注一些文字描述或者数字对视频加以区分,在对视频进行检索的时候,利用标注的标签进行查找。但一些视频检索相关的技术问题便出于此,其一,由于标注的标签是人工标注的,这样会带有个人主观色彩,每个人的经历不同,年龄不同,就会造成在评价同一个东西的时候,语言词藻,以及心态都会存在差异。因此,这样的描述不是客观的和准确的,在视频检索时,就会影响检索的结果。其二,由于人工标注颇多,便会存在较高的成本和过重的工作量,视频之多难以想象,人工标注将是一个艰巨的工作。其三,文本的标注是对视频内容的一个概括描述,缺少了视频中的一些比较细节的描述。其四,用文字对视频所要讲述的较为复杂的视频进行描述,是很困难的。因此,基于内容的视频检索技术(Content BasedVideo Retrieval,CBVR)被提出并广泛使用,其特点是能够满足视频检索需求,并能够客观地对视频内容进行描述,并且节约成本。
..........
1.2 国内外相关研究进展
1.2.1 经典的视频检索系统
目前,基于内容的视频检索技术正被广大学者所关注,研究成果不论是在国外还是国内的研究机构院校都有所获。接下来,将会对近些年在视频检索领域产生的具有代表性的研究成果作以介绍。90 年代,IBMAlmaden 研究中心研发出一个针对图像和视频检索系统 QBIC,在商业化的视频检索系统中,它是第一个多元化的,并交互良好的检索系统。它所具备的功能是多样化的,对之后的视频检索技术的发展起到了重大的意义。QBIC 检索系统中的查询功能如下,用户可以通过手绘图纸,采用系统自带的标准图集,以扫描的形式读入图像,对视频中的前景进行提取后,将其中运动的对象或是以视频中的一些片段作为基准作为检索方式,同时,也可以选择颜色标准或是进行结构化的查找、当用户提交一张图像,手绘的草图或是视频段等形式的样例时,QBIC 首先对图像特征进行分析,并进行特征提取。之后将是根据用户的选择给出相应的检索方式。由伊利诺斯学研发的 MARS 系统在多个领域都有很好的应用,特别是在图像和信息检索,计算机视觉等方面。它的目的不单单是寻找那个最为匹配的选项,而是将系统做成一个可以面向不同用户和面向不同的应用的检索工具。最值得一提的是该系统将反馈机制引入其中,在完成用户提出的不同组合下的查询和优化查询上,能够更加高效地执行任务。上述的这些方法主要是采用全局特征对图像的内容进行描述。另外,一些检索方式是基于区域的检索,是基于图像分割技术提取图像在关键区域的特征。具有发表性的几个检索系统是加州大学开发出来的 Netra,伯克利大学的 BlobWorld,以及宾州大学与斯坦福大学一同开发的 SIMPLicity。但是,由于以上的两种方式都是基于图像开发的检索系统,图像分割存在弊端,所以有些失准。虽说该方法近似于用户感知,但是之间存在问题,就是对于用户的真实需求考虑的知之甚少。
.......
第 2 章 相关研究概述
本章主要是对视频以及视频片段检索中涉及的内容进行介绍。首先介绍了视频的层次结构,使我们清楚地了解到本文需要处理视频中的哪些层数据。又对经典的关键帧提取方法进行简要的概述。对目前关键帧评价中用到的一些评价指标进行介绍。最后,对视频检索的一般模式进行描述,便于后续实验的理解和分析。
2.1 视频结构
视频是将听觉和视觉融合的一种模式,视觉是通过观看连续切换的画面,听觉则是聆听与每幅画面相对应的那段音频。因此,总结来说,非结构化的视频是由音频和图像的组合的,是一个具有时序性的帧集合。视频的特点是所观看的内容是具有时空特性的,视频的层次[11]由上到下依次为:视频流(Video Sequence)、场景(Scene)、镜头(Shot),帧(Frame)。该结构如图 2.1 所示。视频流:由时间关联紧凑的场景构成,位于视频的顶层。场景:是一些镜头构成的,镜头之间具备内容相近且时间顺序一致性的特点,各个场景都是对不同的故事的展示。镜头:视频中基本物理单位,指的是摄像机从开始运转到停止运转期间摄录的画面和,同一个镜头是一段时间内在同一空间中不会发生明显的特征变化。帧:一张图像,是视频的最小的单位。不同的视频帧率不同。
........
2.2 视频关键帧的相关内容介绍
视频摘要是由一些小视频或图像帧构成的,可以用于较快地浏览视频的内容。视频摘要不仅可以通过对视频进行分析,还可以对音频流和文本流等多媒体信息进行分析,得到一个可在最短的时间内让用户从中获取最多信息的视频摘要[12]。静态视频摘要是由视频中一些具有代表性的图像帧组成。静态视频摘要的表现形式可以分为标题、海报、关键帧和故事板。(1) 标题:是根据视频内容,人工标注一段简短且简单的文字描述。然而,不同的人关注点不同,容易忽略视频中的主要内容。对于一些有字幕的视频来说,通过对字幕和文字语义的识别分析可以提高准确性。(2) 海报:是一个图像帧,它是从视频中选出最重要的,从海报中抽取的图像帧不具有时序性和情节发展,只能作为一个视频主旨内容的缩影。(3) 关键帧:用于描述视频内容的一组图像帧,并具有时序性。(4) 故事板:是视频中的一些图像,结合文字信息共同描述出视频的主要内容。故事板既能够表达出视频的主要内容,又展现了它的时序性,便于用户掌握视频内容。动态视频摘要是从视频中提取的一些可以表达视频内容的片段组合而成,是一个比原视频短的视频片段。动态视频的表现形式分为精彩集锦和全局缩略。
........
第 3 章 一种音乐舞蹈视频关键帧提取方法 ...........13
3.1 音乐舞蹈视频关键帧提取 ........13
3.2 实验结果分析 ........19
3.3 本章小结 ......21
第 4 章 舞蹈视频片段检索..........22
4.1 视频片段检索中存在的问题 ....22
4.2 基于局部特征的特征提取与匹配 ......23
4.3 基于视频摘要的舞蹈视频片段检索 ............26
4.3.1 基本思想 ....27
4.3.2 算法流程 ....27
4.4 舞蹈视频片段检索评价指标 ....28
4.5 本章小结 ......30
第 5 章 实验结果评价与分析......31
5.1 数据集介绍 ............31
5.2 实验设置 ......34
5.3 实验结果分析 ........34
5.4 参数分析 ......35
5.5 本章小结 ......36
第 5 章 实验结果评价与分析
本文采用舞蹈数据集 Dance Motion Capture Database 和 Vicon 设备录制的舞蹈数据集进行算法性能的测试。本章首先介绍了数据集、实验环境和参数设置。之后再建立对比实验,进而验证该算法的有效性和准确性,最后将根据实验结果作出分析。
5.1 数据集介绍
运动捕捉系统是记录一个移动的物体在 3D 坐标中的位置和方位信息,在娱乐,运动,医疗和军事领域中都有应用。通过将视频捕捉设备放置在空间中各位置,并对物体进行点标记,然后测量物体的大小,在运动的过程中,设备对其进行跟踪,将记录物体在空间中的运动轨迹。Dance Motion Capture Database 数据集是用 8 个高清摄像机记录的,捕捉率高达960Hz,表演者穿着 mocap 套装,视频数据保存的格式为 MP4(MPEG-4 part 10 H.264)。实验设备为两个动作捕捉系统,虚拟现实设备,微软 Kinect 控制台,3D 显示器,触觉数据手套,3D 扫描仪,3D 软件应用程序等。我们采用该数据集中 5 个不同的表演者所跳的舞蹈,每个人在 10 种情感下进行表演。表演者是职业舞者,年龄在 16 岁到 35 岁。不同的因素会展现不同的舞蹈,音乐的节奏,歌词,表演者的个性,经历等都会对所展现的舞蹈产生影响。每个舞蹈大约是90-120 秒,每段舞蹈都有相应的背景音乐。因此,一共 50 个舞蹈,大约 90 分钟(112500帧),帧率为 25 帧/秒。Dance Motion Capture Database 数据集中的一些视频帧,如图 5.1所示。#p#分页标题#e#
........
结 论
视频传播的范围广,传播速度快,使得网络上的视频数据量巨大。在进行基于内容的视频检索时,视频的多样化以及重复性成为视频检索领域的一个难题。近年来,检索领域的研究不断地受到国内外学者的青睐。本文针对于形态多变的舞蹈视频进行视频检索的相关研究。但是,目前公开的舞蹈数据集较少,本文使用了 Dance Motion CaptureDatabase 舞蹈数据集,和通过 Vicon 运动捕捉系统,由专业的舞蹈演员进行舞蹈表演,录制的舞蹈数据集。本文主要的研究内容是在音乐舞蹈视频提取关键帧的基础上进行视频片段检索。从音乐舞蹈视频中提取关键帧,通过将音乐特征与舞蹈动作的运动特征进行按帧率的融合,得到一个具有音频变化特征的特征序列,并通过衡量评价体系的值进行阈值的选择。实验结果表明,本文提出的方法能够有效地提取出概括视频内容的关键帧集合。全文的主要工作及得到的主要结论总结如下:
(1) 舞蹈动作中重复的舞蹈动作过多,检索时对检索速率有影响,因此,本文提出了一种音乐舞蹈视频关键帧提取方法。首先对分帧后的视频进行光流计算,提取视频的运动特征,音乐与舞蹈息息相关,提取视频中对应的音频,对其进行特征提取。对于运动特征的统计采用图像熵进行运算。将音频特征与熵值序列进行融合,获取一个具有音频特征的熵值序列。然后依照着评价标准的值,通过不断地迭代选取一个最佳阈值作为该关键帧集合提取的阈值。最后,以该阈值为基础,得到最终的关键帧集合。
(2) 通过对舞蹈视频结构以及内容的分析,本文采用音频特征对其进行分段处理,并提出一种基于视频摘要的舞蹈视频片段检索方法。视频片段检索一般是以镜头下的关键帧进行比较,但是该方法并不适合舞蹈视频,因此,本文通过将关键帧与查询片段的等距提取的视频帧进行比对,一个或多个关键帧能够概括出该段视频的内容,以某些关键帧对查询视频进行比对,如果这些关键帧同样能够概括该段的内容,则关键帧所对应的视频片段与查询片段相似。最后,通过多方因素的考虑构建相似匹配模型,计算出相似度。
(3) 在 Dance Motion Capture Database 舞蹈数据集,和 Vicon 运动捕捉系统录制的舞蹈数据集上进行的实验,实验表明本文提出的方法能够准确地检索出与查询片段相似的视频片段。
..........
参考文献(略)