本文是计算机论文,本文在前人的研究基础上,对立体匹配的相关问题进行深入研究与探索,提出了新的解决方法,使得性能得到了进一步提升。本文的工作总结如下:(1)其次,本文证明了本质矩阵有两个相等的非0奇异值、而第3个奇异值为0的结论。依据此结论,对本质矩阵实施奇异值分解,以及通过分析左右摄像机潜在的几何约束来消除奇异值分解的二义性,并求得左右摄像机之间的相对位姿。通过对奇异值分解得到的正交矩阵实施相应的变换,即可得到使左右摄像机的光轴变为相互平行且垂直于基线的旋转变换。在此基础上,将绕基线的旋转角度变为0,以便减少倾斜畸变,而且将左右摄像机内参数的均值作为新的内参数矩阵,以便使校正后的立体图像对应极线共线于同一水平线,从而可求解出校正变换的解析解,所以,本文校正方法不涉及任何优化搜索过程。
......
1绪论
由于任何一对立体图像的成像不仅受摄像机影响,而且与场景特性密切相关,因此,它们之间的内在联系以及差异是由多种综合因素导致的,这些因素除了摄像机参数设置以外,还包括场景的光照条件、物体表面特性以及景物上下文关系等。传统非学习方法不能将所有引起成像差异的因素综合起来建模,而且也无法建立特定场景下立体图像之间的内在联系,因此,对于一些来自复杂场景的立体图像,非学习的匹配方法通常表现出较差的性能。为此,本文提出一种端到端的分组距离网络,通过将其在某个特定场景的数据集进行训练学习,即可利用它来预测该场景下立体图像的视差。本文分组距离网络采用多个残差模块提取出每个像素的深度特征,随后将左右视图中对应像素之间的特征向量进行分组并计算它们之间的分组距离向量,由此构建出一个四维代价体,紧接着采用级联的三维沙漏网络对其进行卷积,最后通过视差回归生成视差图。通过将分组距离网络在某个场景数据集上进行端到端的训练,并可直接学习出从立体图像到其最终视差图的映射。本文的内容分成七个章节进行描述,具体安排如下:第1章首先阐述了课题的研究背景及研究意义。其次,综述了极线校正和立体匹配的研究现状及进展,详细描述了各类代表性的算法,并分析了它们的优缺点。最后,介绍了本文的研究内容及创新点,并给出了论文的总体结构。
.......
2基本原理
2.1摄像机成像模型
计算机立体视觉的主要任务是通过从不同视点拍摄同一场景所得到的一对立体图像来恢复场景的三维信息。摄像机在拍摄图像的过程中,通过其内部的透镜将现实中的三维场景投影到摄像机的二维成像平面上。摄像机成像模型确定了三维空间点与投影到二维图像平面上的像点之间的对应关系。立体视觉则是从二维立体图像逆向地求解场景三维信息,主要是先通过立体匹配算法计算立体图像之间对应像素的位置偏差(即视差),然后根据三角测量原理求出场景的三维信息。本章主要介绍立体视觉中的一些基本概念和基本原理,主要包括摄像机成像模型、两视图之间的对极几何关系、立体视觉原理、极线校正以及立体匹配原理等,从而为后续章节的算法研究奠定理论基础。摄像机成像过程本质上是现实三维世界到摄像机图像平面的透视投影过程,而任意一个三维空间点到其对应的图像像素点的映射是由摄像机成像模型唯一确定的。下面将通过建立相应的参考坐标系并根据摄像机透视投影过程推导出摄像机成像模型。
2.2两视图几何模型
当使用两个摄像机同时从不同视点或者使用单个摄像机先后以不同视点采集两幅来自同一场景的图像时,这两幅图像之间存在着内在的约束关系,通常称之为对极几何关系,它不仅对立体视觉中立体图像的稠密匹配起着重要作用,而且在基于图像序列的三维重构和运动分析中也有着广泛的应用。基础矩阵在两视图几何中占据非常重要的角色,因为利用基础矩阵不仅可以对两视图所包含的场景进行射影重构,而且还可以从含有错误匹配的对应点集中剔除大部分外点。另外,基础矩阵可以进一步地引导匹配,即通过缩小搜索范围进而搜寻出更多满足极线约束的匹配点对。因此,精确地估计基础矩阵对于两视图几何的研究是非常重要的,尽管基础矩阵独立于景物结构,但它可以仅依据景物的特征点之间对应关系计算得到。上述标准立体视觉系统是在理想情况下才有的配置,然而在实际应用过程中,由于摄像机的畸变以及安装的偏差等原因,立体视觉系统的两个摄像机光轴通常并不平行,基线也难以与图像的水平轴平行,因此,需要通过极线校正对立体视觉系统拍摄的立体图像进行变换,使其符合理想情况下标准立体视觉系统特有的对极几何约束。因此,极线校正是立体匹配的前提必要步骤。
.......
3基于本质矩阵奇异值分解的极线校正方法................................................................37
3.1问题描述.............................................................................................................37
3.2本质矩阵.............................................................................................................38
3.3本质矩阵的奇异值分解.....................................................................................41
3.4校正变换.............................................................................................................43
3.5实验结果分析.....................................................................................................46
4基于Census特征的抗辐射变化立体匹配方法...........................................................55
4.1问题描述.............................................................................................................55
4.2基于Census特征的匹配代价计算....................................................................56
4.3基于融合自适应支持权重的代价体滤波.........................................................60
4.4视差计算与精确化.............................................................................................65
4.5实验结果分析.....................................................................................................66
5用于消除匹配歧义的定向线性树代价聚合方法........................................................75
5.1问题描述.............................................................................................................75
5.2定向线性树结构.................................................................................................76
5.3在定向线性树上的代价聚合.............................................................................77
5.4一维路径上的代价聚合.....................................................................................78
........
6基于分组距离网络的视差预测方法
6.1问题描述
当用摄像机拍摄某一场景的图像时,场景在图像平面上的成像结果不仅直接受拍摄视角和摄像机参数设置的控制,而且与场景的特性密切相关,并受到场景的光照条件、物体表面的光反射特性、景物之间的遮挡关系等诸多因素的影响。相应地,同一场景立体图像之间的潜在差异与内在联系也是由这些综合因素导致的。特别是对于一些较为复杂的场景,传统非学习的匹配方法不能学习出场景特有的属性,无法刻画立体图像之间的内在联系以及像素之间的对应关系。尽管一些二值特征或梯度特征,在一定程度上能够应对辐射变化的影响,但是这些人工设计的浅显特征并不能综合考虑所有导致成像差异的因素影响。例如,对于一些由自动驾驶汽车在真实交通状况下拍摄的立体图像,如图6-1(a)所示,经常会受到太阳光晕、倾斜道路表面与挡风玻璃的光反射、车辆行驶过程中带来的运动模糊等多种因素的影响,而人工提取的特征通常并不能充分表征场景中的像素特征,即使采用代价聚合或全局能量优化,也不能有效地描述道路交通场景特有的属性,进而无法构建该场景下立体图像之间的深层内在联系,这样使得在一些严重退化区域容易产生错误匹配,如图6-1(b)所示,反光的柏油路面上出现大量的误匹配。
6.2卷积神经网络基本层
本文所提出的分组距离网络(GDNet)是一个端到端的全卷积网络,通过对该网络进行端到端的训练学习后,并可利用它直接从输入的立体图像中预测出亚像素精度的视差图。GDNet网络的模型包含四个部分,分别是特征提取、代价体构建、代价体滤波和视差回归,该网络模型的总体结构如图6-5所示,而表6-1给出了GDNet网络架构详细信息。为了获得每个像素鲁棒的深度特征,这里主要采用类似于残差网络(ResNet)[183,184]的模型进行提取,残差网络通过学习输入与输出之间的残差,有效避免在增加网络层深度过程中出现误差不降反升的退化问题。残差的学习则通过简单的跳跃连接(skipconnection)来实现,具体地,对于每个由少量层组成的残差块,将其输入与最后层的输出进行相加后得到的结果作为残差块的输出结果,如图6-6所示。相应地,残差网络则是由许多残差块级联而成,通过这些跳跃连接,前向信息与后向信息可以在不同残差块之间进行传递,从而可以有效抑制梯度消失问题。在本文GDN网络的特征提取模块中,如表6-1所示,首先级联三个滤波器大小为33的卷积层对输入图像进行预处理,每个卷积层后面依次紧跟批归一化(BatchNormlization)处理[185]和ReLU激活层,其中第一个卷积层的步长为2,即将输出特征图像的大小变为输入图像的1/2,以便降低网络复杂度,增加感受野大小。
........
总结与展望
立体匹配实际上是透视成像的逆过程,该问题的解本身具有不确定性,另外,在匹配过程中又面临着诸多挑战,包括极线校正引入的畸变、光照变化与噪声引起的误匹配、弱纹理或重复纹理区域中的匹配歧义、遮挡与深度不连续处的匹配问题等,这些挑战使得立体匹配一直是计算机视觉领域中的难点问题和热点问题。对比实验结果表明本文校正方法在校正精度与效率方面都有所提升。(2)针对立体图像之间经常出现由辐射变化导致的成像差异问题,提出了基于Census特征的抗辐射变化立体匹配方法。考虑到如果只在灰度图像上对每个像素实施Census变换,那么同一个二进制字符串可以用来描述许多不同的像素。为了提高像素特征的表征能力和区分度,本文将原始图像的水平梯度图像和垂直梯度图像作为其额外的通道,分别在灰度图像和两个梯度图像上对每个像素实施Census变换,然后将生成的三个二进制字符串拼接起来,进而为每个像素构建出一个轻量级的二值特征向量。相应地,通过计算对应像素特征向量的汉明距离来度量其相似度或匹配代价。为了提升视差图的信噪比,应对物体边界区域的视差膨胀效应,提出了一种利用融合自适应支持权重对代价体进行滤波的策略,其对应的融合权重函数等于局部边缘感知滤波器核函数和非局部边缘感知滤波器核函数的均值,这等价于分别采用这两个保边滤波器对代价体执行滤波,然后将滤波结果取平均。最后,依次采用WTA优化方法以及视差精确化操作并可计算出最终稠密视差图。在Middlebury数据集和KITTI数据集上的实验结果表明所提出的算法对辐射变化具有较强的鲁棒性,并且视差图的质量得到改善,在物体边界处的精度得到了提升。
参考文献(略)
参考文献(略)