本文是通信工程论文,本文的研究重点是面部表情识别,即推断所显示的面部表情背后的情绪。但面部表情识别只涵盖小部分情绪。有时面部肌肉的运动并不会显示一种特定的情感,而是传达一些意图,必要分析和定义这些细微的面部肌肉动作。面部动作单元提供其他重要且有价值的线索解释了面部表情并了解人类的情绪。面部动作单位检测的目的是测量和描述出现在脸上的面部肌肉活动。同时检测多个动作单元仍然是一项非常具有挑战性的任务,这是我可能关注的另一个研究方向。近年来,深度学习方法已在计算机视觉和生物识别领域中广泛使用,并且当前的深度系统在包括语音识别,视觉对象识别和动作识别在内的许多领域中都达到了最先进的性能。在面部有干扰物的情况下,深度学习可用于发现面部和表情的固有及特定特征,关于这些特征与面部表情之间的对应程度还需继续深入研究。另对应不同的面部变化,例如姿势,照明,遮挡和年龄变化等方面还需要不断拓展,从而探索不同面部变化更为复杂的方向。
.........
第一章 绪论
我国对于表情识别的研究相对于发达国家的时间较晚,始于上世纪 90 年代末,哈尔滨工业大学的高文教授首次将国外表情识别成果引入国内。2008 年中南大学的周书仁等[22]提出了基于隐马尔科夫模型的表情识别,使人脸面部表情识别的整体准确率有所提高;2011 年合肥工业大学成立了专门的情感计算研究所,之后于 2013 年胡敏等人提出了一种基于梯度 Gabor 直方图特征的表情识别方法,使人脸面部表情识别的实时性提高;同年,北京工业大学对三维的人脸面部表情识别技术进行了研究,并通过几何纹理动态特征融合方法获得了北京市自然科学基金项目的资助。柴瑞敏等人[23]在 2014 年提出了基于 Gabor小波与深度信念网络的人脸识别技术,使深度信念网络算法与图像识别紧密地联系在一起;2015 年,施徐敢等人提出了融合深度信念网络和多层感知器的人脸表情识别方法,验证了深度信念网络在人脸面部表情识别中的有效性;2017 年,李艳玮等[24]提出了融合 AAN、CNN 与 LBP 特征的人脸表情识别方法,增强了表情局部特征的显著性和稳定性。2018 年中科院软件研究所人机交互重点实验室的姚乃明等人提出了一种基于生成式对抗网络的鲁棒人脸表情识别方法,使得头部旋转角度在 45 以内的面部表情识别鲁棒性和准确性得以提高。
.......
第二章 面部表情识别的相关知识
2.1 面部动作编码系统
面部图像或视频的 AUs 标注应满足以下要求:首先,编码人员必须是受过专业训练的人,而不是随机的路人。其次,应该至少有两个独立认证的 FACS 编码人员就注释达成协议。第三,视频每一帧都要做标签。AU 标注的这些局限性使得人脸表情数据库的标注非常耗时。这也是为什么标记为 AU 的大型数据集数量有限的原因。因此,一个基于计算机的自动 AU 标注系统将有助于标注过程。FACS 将独的面部肌肉运动产生的每种形状和外观模式编码为单个的面部AUs。例如,提升内眉被赋值为 AU1,低头是 AU4。图 2.1 显示了 AU 定义列表和相应的示例图像。AUs 的组合用来表示不同的面部表情。例如,一个快乐的表情结合了 AU6(脸颊拉扯)和 AU12(嘴角拉扯)。Ekman 等人在 FACS 手册[35]中,每个AU 的强度范围从 A 到 E (A:痕迹,B:轻微,C:有标记/有发音,D:严重/极端,E:最大)。AU1A 表示 AU1 最弱的强度,而 AU1E 是 AU1 的最大强度。根据肌肉运动的频率和性质,强度标签在不同的 AUs 中分布不同。
2.2 面部表情分析概述
目前的表情识别效果的验证多数都是在公开的人脸数据库上进行展开实验的,首先对原始数据集图片人脸检测作出预处理,即利用计算机对图片中的人脸区域检测和定位,随后将人脸图像裁剪到需要的尺寸大小,主要包含涉及人脸定位,人脸对齐,灰度化,尺度归一化等内容。然后提取经过预处理后的人脸图像的表情特征。为了避免提取的特征维数过大,还涉及表情特征的降维等内容。最后依据人脸表情特征之间的差异,选择适当的分类方法对提取的特征进行分类。在使用中间列所示的 Procrustes 进行仿射变换后,将三角网格区域内的像素分别变形,以填充参考形状。在使用人工特征时,PWA 被证明是估算低强度 AUs的必要条件。尽管深度 CNNs 对旋转和平移具有一定的不变性,但人脸归一化对于快速收敛和避免过小数据库训练的过拟合问题效果很好。
........
第三章 多特征融合的视频人脸表情识别...............................21
3.1 引言............... 21
3.2 方法............... 22
3.3 实验和讨论... 34
第四章 利用 LSTM 网络进行户外人脸分析.............................47
4.1 引言............... 47
4.2 LSTM 视频模型(3L Model)....... 48
4.3 结合 CNN 和 LSTM 的实验模型(CL Model)................ 49
第五章 集成两个 LSTMs 实现基于视频的人脸表情识别.......60
5.1 引言............... 60
5.2 特征提取模型................................ 61
......
第五章 集成两个 LSTMs 实现基于视频的人脸表情识别
5.1 引言
近年来提出了许多深度方法为特征提取和分类做出了巨大贡献。本章的目的是通过图像识别来寻找有效的特征表示和分类方法的可靠框架。现有的基于深度网络的方法的主要问题之一是在有限的表情数据上要训练大量参数时的过拟合问题。研究人员现在证明了 LSTM 作为这种过拟合问题的潜在解决方案的优势,减少问题的模型参数,以及建模面部表情的顺序和时间依赖性的能力。CLM 方法[8]是面部表情识别历史上引入的最具开创性的方法之一,CLM 方法能够捕获人脸的形状和纹理信息。而且这种 CLM 方法比 ASM 方法(仅提取形状信息)和 AAM 方法(仅提取外观信息)执行得更好。后提出了一种使用深层 CNN 网络的基准测试方法,以便从面部表情序列中捕获外观和几何特征[16]。该联合深层模型比两个具有外观和几何特征的深层 CNN 模型获得了更好的精度,本章的假设就是通过这种启发而产生的。考虑到 LSTM 比 CNN 的有效性,提出了一种通过 LSTM模型解决此问题的新方法。
5.2 特征提取模型
Alex Net 系统是经过预先训练的深度 CNN 架构,已经对 120 万张图像进行了训练。不过要建立更好的神经识别,就需要丰富的输入数据,这就提出了使用特征描述符来封装每个重要特征点的要求,使用经过调整的 Alex Net 功能来应对这一挑战。这种微调方案的目的是从输入图像中提取出更高级,更有意义的面部表情特征。由于 Alex Net 功能是基于 Image Net 数据的,因此为了获得表情特有的特征,对表情数据上的 Alex Net 模型进行了微调。
.........
第6章 总结与展望
本文提出了新的面部和面部表情识别方法,通过简单的分类,特征提取,预处理和深度学习等方法,可以对面部变化进行综合分析。后续还可以在此基础上进一步扩展,以提高性能。在第三章,证明了本文方法可以在实验室控制的环境下实现面部表情识别方面较好的性能。但是,对于户外的情感识别,其性能远不能令人满意。如何有效解决户外情感识别问题是我未来的研究方向之一。解决问题的关键是探索目标信息的多种表达方式。多模式可以丰富表示空间并改善情感推理。这些方式包括面部,声音,身体手势,动作和生理信息等,还可以探索颜色和深度信息。相信多种模式可以提供互补的线索,并为影响识别做出不同的贡献。但如何从不同的方式中挖掘有用的表示以及如何最佳地整合这些不同的表示,仍需不断研究。由于当前的方不能实时在人机界面的应用程序中进行有效识别,因此,未来的工作应将所研究的技术扩展到实时面部分析的系统中。
参考文献(略)