计算机论文哪里有?本文从相关的无监督模型和监督模型的理论发展,以及利用标签信息来增强模型鉴别性的理论研究进行了介绍。针对如何利用特征编码和标签矩阵的天然属性得到更具鉴别性的数据表示,在已有理论的基础上,提出了三种鉴别性稀疏低秩理论为基础的图像分类方法。
第一章 绪论
1.2 发展及研究现状
图像分类问题一直是计算机视觉和模式识别领域一个非常活跃的课题。自稀疏表示被应用到分类问题中后,吸引了越来越多研究者的关注,在这个领域中如何获得判别的数据表示成为研究者始终关注的重点。从是否利用标签信息这一角度,鉴别性稀疏低秩相关的研究可以被分为无监督方法和监督方法两类。
稀疏表示最早被应用在信号分析领域,用于对信号进行稀疏分解,以获得信号更简洁表示形式。Wright 等人[9]在 2009 年提出基于稀疏表示(Sparse Representation-based Classification,SRC)的人脸识别算法,开创了稀疏表示在图像识别领域应用的先河。其关键点是假设样本可以被同一类别的少量其他样本线性表示。在其工作的基础上,许多学者对 SRC 的理论进行了研究并提出了改进版本[11]。在对 SRC 的机制进行了探讨后,Zhang 等人[13]的工作指出了 SRC 模型中协同表示的作用。他们提出的协同表示(Collaborative Representation based Classification, CRC)算法的分类精度与 SRC 相当,但非常有效地提升了运算效率。Cai 等人[14]从概率的角度解释了 CRC 的机制,并以此为基础提出概率协同表示方法(Probabilistic Collaborative Representation Based Classifier,ProCRC),在保证了运算效率的同时也有效地提升了识别率。Jiang 和 Lai 等人[15]提出了一种稀疏和稠密的混合表示方法(Sparse- and Dense-hybrid Representation,SDR),它是通过类特定字典的稀疏表示和非类特定字典的稠密表示来实现的,它将图像分解为三个组成部分:类特定信息,非类特定变化和稀疏噪声。
第三章 基于低秩特征的双转换矩阵学习算法
3.1 引言
基于最小二乘回归 LSR 的方法已被广泛用于模式识别和计算机视觉领域的任务。LSR 的数学易处理性使它成为一种简单但有效的数据分析工具。针对不同的场景已经开发了 LSR 的许多变体,例如加权 LSR[47]、偏 LSR[48]、核 LSR[49]等等。此外,一些基于稀疏表示的方法,例如 Wright 等人提出的基于稀疏表示的分类[10]及其变体,例如非负约束 SRC[11]和局部性约束 SRC[12],以及在讨论 SRC 机制的基础上提出的基于协作表示的分类[13],也可以视为基于 LSR 模型的方法,因为它们采用了 LSR 来进行重构项的约束。
传统的 LSR 旨在找到一个可以将样本完美地转换为相应标签矩阵的转换矩阵。模型的目标是使样本的回归结果与相应的回归目标之间的最小二乘损失最小化。稀疏约束可以被添加到投影上,例如𝑙1范数或𝑙21范数,从而允许转换矩阵选择更具区分性的特征[50]。但是,对于实际的多分类问题,严格的 0-1 标签矩阵过于僵化,无法获得适宜于于分类任务的判别转换矩阵。一个相对松弛的结构可以提供更灵活更判别的结果。Xiang等人[20]提出了一种被称为ε-拖动的技术,其迫使不同类的回归除了最有代表性的 DLSR 模型以外,围绕松弛标签矩阵已经有许多模型被提出。𝑙1范数约束施加在ε-拖动量矩阵上来限制拖动量中 0 的个数,以控制 DLSR 的边际[24]。Chen 等人在松弛标签矩阵上逐类施加低秩约束来增强松弛标签矩阵的类内紧凑性和相似性。Zhang 等人[21]提出的重定向 LSR(Retargeted Least-Squares Regression,ReLSR)引入了一个边际约束,该约束迫使不同类回归目标之间的边际大于 1。因此 ReLSR 不直接使用ε-拖动,而是应用该约束来从数据直接获取合适的回归目标。Wang 和 Pan 基于DLSR 和 ReLSR 的工作,指出 DLSR 是 ReLSR 偏移量为 0 的特例,并提出了分组重定向 LSR(Groupwise Retargeted Least-Squares Regression,GReLSR)[22]。在 GReLSR 中,使用了分组正则化来强制同一类的样本回归目标具有相同的偏移量。为了进一步利用样本之间的相关性,图结构被引入 LSR 模型。Fang 等人[23]开发了一种具有类别紧缩图的正则化标签松弛(Regularized Label Relaxation Linear Regression,RLR)线性回归方法,该方法可确保每个类别的样本在转换后也能保持原有的邻近关系。目标沿相反方向移动来得到松弛标签矩阵,以此为基础提出了 DLSR 模型。
除了最有代表性的 DLSR 模型以外,围绕松弛标签矩阵已经有许多模型被提出。𝑙1范数约束施加在ε-拖动量矩阵上来限制拖动量中 0 的个数,以控制 DLSR 的边际[24]。Chen 等人在松弛标签矩阵上逐类施加低秩约束来增强松弛标签矩阵的类内紧凑性和相似性。Zhang 等人[21]提出的重定向 LSR(Retargeted Least-Squares Regression,ReLSR)引入了一个边际约束,该约束迫使不同类回归目标之间的边际大于 1。因此 ReLSR 不直接使用ε-拖动,而是应用该约束来从数据直接获取合适的回归目标。Wang 和 Pan 基于DLSR 和 ReLSR 的工作,指出 DLSR 是 ReLSR 偏移量为 0 的特例,并提出了分组重定向 LSR(Groupwise Retargeted Least-Squares Regression,GReLSR)[22]。在 GReLSR 中,使用了分组正则化来强制同一类的样本回归目标具有相同的偏移量。为了进一步利用样本之间的相关性,图结构被引入 LSR 模型。Fang 等人[23]开发了一种具有类别紧缩图的正则化标签松弛(Regularized Label Relaxation Linear Regression,RLR)线性回归方法,该方法可确保每个类别的样本在转换后也能保持原有的邻近关系。
第五章 基于结构化分类器的字典对学习算法
5.1 引言
表示学习已经在模式识别的众多领域都取得了成功,其关键思想是认为每一个样本都可以被表示为样本的线性组合,从而得到其对应的表示系数[66]。
为了将表示系数应用到分类问题当中,Wright 等人利用𝑙1范数作为系数约束来得到稀疏的表示[10]。稀疏表示学习中,样本的表示更倾向于选择同类样本,即最大的表示系数应该来自于同类的表示系数。但是 Zhang 等人[13]提出在表示学习当中其他类别的样本对于样本的表出也做出了贡献,并且其关于协同表示的工作与 SRC 相比速度大大提升精确率却相差无几。在最近的工作当中,非负表示(Nonnegative Representation,NR)[67]也被提出,指出非负约束能自然导致稀疏并且更符合直观。
上述的表示学习方法使用全体的训练样本来进行组合,但是原始数据往往包含众多冗余信息,因此字典学习的方法被提出来得到紧凑的字典原子。根据标签信息是否指导模型的学习,字典学习方法可以被分为两类,无监督和监督。在无监督字典学习中,KSVD[25]是相当典型的算法,其概括了𝑘均值聚类并且从训练样本中学习一个过完备字典。但是 KSVD 旨在对图像进行重构,并将以最小化重构误差为标准学习字典并且可以应用到分类任务当中。但是实际能得到最好的重构效果并不等同于能够得到最好的分类效果。并且已经有很多工作表明,有标签信息参与的情况下,能获得更好的分类效果。在 KSVD 的基础上,判别 KSVD(Discriminative KSVD,D-KSVD)[68]和 LCKSVD[26]学习了一个分类器来构建从系数到标签信息的映射,在重构图像和分类之间找到平衡,来得到能兼顾重构与判别性的字典。与此同时,为了让字典学习到的同类系数具备相似性,LCKSVD 加入了判别稀疏系数误差项,建立系数和给定的判别系数之间的关系。从KSVD 到 LCSKVD,也验证了标签信息的引入即监督版本下拥有更好的分类效果。
5.2 基于结构化分类器的字典对学习算法(SCDPL)
5.2.1 SCDPL 目标函数
监督学习方法中一个常用的监督项即是以线性分类器为基础的分类误差项,但是此项通常对学习到的系数的结构性,即同类相似性和异类不相关性,贡献很小。大多数算法所采取的措施是在分类误差项以外额外使用结构化表示项,比如判别稀疏系数项[26],分块对角约束结构以及图结构[65]等。这样做确实使结构性和判别性都得到了关注,但是往往模型复杂程度和优化难度都会上升。除此之外的监督算法,并不直接使用线性分类器而是利用标签信息学习结构化表示,比如 FDDL 算法[27],鲁棒判别综合字典学习(Robust Discriminative and Comprehensive Dictionary Learning,RDCDL)算法[72]等。这类算法通常特点是需要逐类计算子字典,或者额外的结构化损失,在某些情况下,这种计算会带来大量计算负担。而且往往是利用重构误差这种并不直接且计算量大的方式来获得分类结果。
总结与展望
工作展望
本文对基于鉴别性稀疏低秩理论的图像分类方法进行了一定的研究,提出双转换矩阵学习、类内低秩子空间学习以及结构化分类器学习,取得了不错的效果。但是考虑到图像分类课题面临的诸多挑战和飞速发展的相关领域技术,本文提出的算法仍然存在着一定的不足。结合本文的研究,未来的工作可以重点从以下几个方面进行深入的探讨和改进:
(1)虽然为了将特征提取和回归任务结合,提出了子空间学习方法,但是一方面仅关注了类内关系,另一反面也缺少了对双转换矩阵学习的深入探讨研究。后续工作会尝试在这两个工作的基础上,进行更进一步的工作。
(2)随着深度学习相关技术的高速发展,关于字典学习与多层次学习思想的结合也开始引起部分研究者的关注。如何构造多层结构以及如何充分利用不同层次更好的分解数据信息最后得到更具鉴别性的数据特征也是值得研究的课题。
(3)本文提出的分类算法都是基于线性假设,这实际上拥有相当的局限性,一方面因为采集到的原始样本数据可能不具备线性可分性,另一方面则因为被线性表示系数和线性分类器所忽略的非线性信息可能包含重要的分类相关信息。实际上已有诸多研究证明图像中的非线性信息,对于分类问题有着不可忽视的重要作用。如何分解和利用线性与非线性信息,并且让其都为最后分类服务,这将是后续工作的重点之一。
参考文献(略)