上海论文网提供毕业论文和发表论文,专业服务20年。

协同时空注意力的骨架动作识别探讨

  • 论文价格:150
  • 用途: 硕士毕业论文 Master Thesis
  • 作者:上海论文网
  • 点击次数:1
  • 论文字数:28422
  • 论文编号:
  • 日期:2022-10-30
  • 来源:上海论文网

计算机论文哪里有?本文所提出的时空激励模块能够使得原来互相独立的空间共现流与时序流之间变得相互影响、相互促进。接着通过设计单流激励与组合激励两种激励方式等多个实验证明了本文提出的时空激励模块的有效性。

第一章 绪论

1.2国内外研究现状

图1.1对人体骨架动作识别算法进行一个简单的分类并给出了一些代表性的算法。如图1.1所示,基于不同的特征提取手段来划分,可以将人体骨架动作识别算法分为传统的基于手工特征的方法以及无需手工设计特征的基于深度学习技术的方法。而基于深度学习技术的方法又可以细分为基于循环神经网络的方法、基于卷积神经网络的方法和基于图卷积神经网络的方法。

计算机论文怎么写

第三章 基于压缩激励机制改进层级共现网络的骨架动作识别方法

3.1引言

近年来,由于动作识别任务在视频理解领域起到了至关重要的角色,其吸引了越来越多研究者的关注。同样,人体动作识别的应用领域非常广泛,从智能监控系统、人机交互到虚拟现实和机器人等,无一不需要利用人体动作识别算法[57]。通常来说,可以利用多个模态的数据[58-60]来做动作识别任务,比如外观、光流和人体骨架[8,61,62]。其中,以外观和光流为基础的研究一直是学界的主流,并且也已经取得了非常不错的成绩[60,63]。然而由于骨架数据能够通过关节点和骨骼来表示人体,因此,与上述模态相比骨骼数据具备以下三个优点,第一、由于具备高性价比的深度摄像设备的普及和姿态估计算法的出现使得获取骨架数据变得非常便利;第二、与RGB视频数据相比,骨架数据在复杂场景下的鲁棒性更好;第三、由于骨架数据的维度较低,因此其计算复杂度也更低,这一点尤其重要,因为基于视频的模型为了提升准确度不得不利用非常深层的网络如ResNet-50[64]甚至更深的网络,然而这就限制了模型的实际应用。

在本章中,我们着重研究基于骨架的动作识别任务。不管以何种模态的数据来研究人体动作识别任务,对时空特征的建模始终是妥善解决该任务的关键。由于循环神经网络(Recurrent Neural Network, RNN)具备较强的时序特征建模的能力,因此近期有不少将RNN应用到骨架动作识别任务的工作[7,15,16]。然而RNN缺乏学习空间高层语义信息的能力,因此基于RNN的方法并没有取得令人非常满意的结果。另外一方面,卷积神经网络(Convolutioanl Neural Network, CNN)除了具备高效的抓取空间语义信息的能力之外,还能够通过堆叠卷积层隐式的从骨架数据中学习时空特征,并且基于CNN的方法取得了令人印象深刻的结果[9,41,44,45]。但是这些基于CNN的方法都是简单的将骨架数据中的坐标和帧数编码成一张图片上的行和列,然后再将其送入CNN进行分类。这样的缺点在于,在模型从骨架数据中学习有用的特征时,只有卷积核内相邻的关节点会被考虑进去,这就使得模型没办法学习到全局的共现特征。因此Li等[8]提出了能够高效的学习全局共现特征的模型层级共现网络(Hierarchical Co-occurrence Network, HCN)HCN。

第四章 协同时注意力的骨架动作识别方法

4.1引言

近年来,由于动作识别在视频理解任务中扮演了关键的角色,人们对视频动作识别的关注度不断上升。动作识别有着广泛的应用,包括智能监控系统[81]、虚拟现实[82]和人机交互[83]等。传统上,通常将包括RGB视频和人体骨架序列等多种模态数据应用于动作识别任务中。其中,基于RGB视频的算法[72,84,85]仍然是该领域研究的主流方向。然而,由于经济高效的深度摄像机设备的普及和骨架数据获取的便利性,基于骨架的方法[7,14,22,86]也越来越受到学界的关注。与视频、光流等数据相比,骨架数据在复杂场景下具有更好的鲁棒性。特别是骨架数据的低维特征降低了计算复杂度,提高了动作识别的效率。

计算机论文参考

早期的骨架动作识别算法通常是利用手工的方法[2,87,88]来分析骨架的空间特征,随着深度学习技术的不断发展,涌现出了不少将卷积神经网络(convolutional neural networks,CNNs)和循环神经网络(recurrent neural networks,RNNs)应用在骨架动作识别任务上的方法[6,8,14],与手工方法相比取得了更好的性能。在基于CNN的方法中,把骨架序列转换成伪图像,虽然可以通过多级卷积学习到关节点之间的空间关系信息,但其时序信息没有得到很好的保留。而基于RNN的方法把骨架序列当成关节点坐标序列输入网络学习,虽然能学习到关节点间的时序关系,但是没有很好的保存关节点间的空间位置信息。

4.2相关工作

4.2.1骨架动作识别

得益于骨架数据的表达能力、模型的灵活性和训练算法的高效性,并且伴随着深度学习技术越来越成熟,大量的研究者开始将深度学习技术应用到骨架动作识别任务上。这些基于深度学习技术的方法可以被分成三类:(1)基于循环神经网络(recurrent neural networks,RNNs),或长短期记忆单元(Long short-term memory,LSTM)的方法[6,7];(2)基于卷积神经网络(convolutional neural networks,CNNs)的方法[8,9],和(3)基于图卷积神经网络(graph convolutional networks ,GCNs)的方法[10-13]。

RNN设计的初衷就是对具备长时依赖性的任务进行建模,而基于骨架的动作识别任务毫无疑问具备强时序依赖性,因此使用RNN及其变体LSTM来对骨架数据进行建模是一个很自然的选择。然而由于RNN对于空间建模的能力较弱,因此基于RNN的方法通常取得的效果并不是很理想[14,15]。为了解决该问题,Wang等[16]提出了一个新的双流RNN网络来分别学习骨架数据中的空间信息和时序信息。文献[7]则对骨架序列的遍历方法进行研究,提出了基于树结构的关节遍历方法,以此来获取时空域的隐藏关系。与RNN相比,CNN具备更强的学习空间信息的能力,但是由于传统CNN操作只适合以网格结构存储的图像数据,因此为了使用传统CNN网络处理骨架数据,现有的基于CNN的方法需要将骨架关节数据编码为多个2维伪图像,然后才能利用CNN对其进行建模来学习有用的特征[17]。然而,这种简单的编码方式会导致在进行卷积时只有相邻的关节会被卷积核覆盖到,一些空间距离较远的关节点间的关系则被忽略了,因此难以学习到全局的共现特征。为此,Li等[8]提出了一个端到端训练的层级共现网络(hierarchical co-occurrence networks,HCN),利用卷积操作在通道维度上是全局响应这一原理,将空间维度和通道维度置换,从骨架数据中学习全局的关节点共现特征。然而骨架数据本质上是图结构,因此不管是CNN还是RNN都没办法从关节点之间学习到更深刻的空间关系,所以学者开始将图卷积神经网络(GCN)应用到骨架动作识别任务中。文献[10]最先将GCN应用到骨架动作识别任务中,其提出的ST-GCN网络能够同时对骨架数据中的空间特征和时序特征进行建模。Shi等[11]则指出除了关节点这种一阶信息之外,作为二阶的骨骼信息同样非常重要,提出了自适应的图卷积神经网络(adaptive graph convolutional networks,AGCN),最后采用双流架构分别对骨骼和关节点两种信息进行建模。

第五章 总结与展望

5.2展望

本文所提出的方法都只考虑了骨架数据中的关节点的信息,没有考虑骨骼的运动信息甚至是其他模态的信息如RGB视频序列等。未来会将工作的重点放在融合其他信息,比如关节点和骨骼的运动信息,以及进一步提升时序卷积层对时序特征的建模能力的研究上,以提升模型的性能。另外,由于本文是基于HCN这个相对浅层的模型所设计的时空激励模块,因此本文设计的时空激励模块相对简单,这就使得该时空激励模块对原模型精度的提升不是很高。针对这一问题,下一阶段打算在更深的模型或者更大的数据集里继续探索研究。

参考文献(略)

123
限时特价,全文150.00元,获取完整文章,请点击立即购买,付款后系统自动下载

也可输入商品号自助下载

下载

微信支付

查看订单详情

输入商品号下载

1,点击按钮复制下方QQ号!!
2,打开QQ >> 添加好友/群
3,粘贴QQ,完成添加!!