上海论文网提供毕业论文和发表论文,专业服务20年。

基于深度学习的视觉SLAM算法探讨

  • 论文价格:150
  • 用途: 硕士毕业论文 Master Thesis
  • 作者:上海论文网
  • 点击次数:1
  • 论文字数:45855
  • 论文编号:
  • 日期:2023-04-11
  • 来源:上海论文网

计算机论文哪里有?本文围绕如何结合传统方法和深度学习方法展开了研究。本文首先针对现有的自监督深度估计方法无法获取深度不确定性的问题,提出了基于教师-学生架构的深度估计自提升框架,通过循环迭代的方式令神经网络显式地预测深度不确定性。

第一章    前言

1.2    国内外研究现状

1.2.1    传统视觉SLAM研究现状

SLAM起源于二十世纪九十年代,是机器人领域与人工智能领域相结合的产物。其主要解决移动机器人的两大基本问题,即“我在哪”和“我周围的环境是怎么样的”。“我在哪”指移动机器人定位问题,即如何利用传感器信息确定自身的状态信息。通常情况下,移动机器人的状态由其在三维空间中的坐标和方向所描述。除此之外,运动速度、传感器零偏和标定参数等量也常常被加入到机器人的状态之中。“我周围的环境是怎么样的”指移动机器人的建图问题,即如何利用传感器信息构建出未知场景的环境地图。这一地图通常采用某种方式描述环境中移动机器人感兴趣的信息,如环境路标和障碍物等。在未知环境中,我们无法假设GPS、导轨等直接测量机器人位置信息的外部装置能够顺利工作。因此,如何使用装载在机器人上的传感器来实现精确的定位与建图便成为了SLAM领域的核心挑战。

计算机论文怎么写

早期的研究者将SLAM视为状态估计问题。最早提出SLAM的一系列论文将其描述为机器人状态和周围环境空间的不确定性以及二者之间的相互关系[16, 17]。其中,Moutarlier等人提出一种用于机器人轨迹和空间点坐标的不确定性融合策略,Smith等人提出了一种增量式的状态估计和地图构建方法。在这些工作的基础上,SLAM理论研究的框架得以建立。SLAM这一术语也在1995年发表于ISR期刊的论文《Localization of Autonomous Guided Vehicles》中被提出并得到了广泛的使用。2001年,Dissanayake等人在文献[4]中证明了随着移动机器人对周围环境的不断探索,定位问题和建图问题的答案将会逐渐收敛到一个下限,且该下限仅与机器人初始状态的不确定性相关。在同一篇文献中,Dissanayake基于卡尔曼滤波[18]提出了SLAM问题在线性高斯系统下的一种解决方案。在此基础上,文献[19]通过拓展卡尔曼滤波[20]方法将该方案应用到了非线性系统中。至此,研究人员对SLAM算法的理论研究逐渐走向成熟。人们也开始认识到SLAM算法在许多领域上的重要意义。最初,研究者们主要以激光测距仪作为移动机器人的传感器来实现SLAM算法。

第三章    基于教师-学生架构的深度估计自提升框架

3.1    深度估计自提升框架简介

在自监督的深度估计模型训练过程中,深度不确定性和位姿不确定性耦合在一起,构成了图像重建不确定性。为了解耦并进一步利用深度不确定性和位姿不确定性,本文提出了一种基于教师-学生架构的深度估计自提升框架。如图3.1所示,该框架的主体是一个包含训练步骤(Teaching step)和优化步骤(Refinement step)的循环迭代自提升结构体。我们首先采用自监督的方式训练一个视觉里程计,将其称为教师模型。等待教师模型完全收敛且能够输出较好的结果后,将其预测结果作为伪标签传递给自提升结构体进行迭代优化。在训练步骤中,我们将教师模型的预测结果作为数据标签,以有监督的方式训练学生模型。通过引入不确定性预测分支,学生模型能够学会在估计深度图的同时输出对应的不确定性估计结果。在之后的优化步骤中,学生模型估计的深度不确定性被作为遮罩加入到教师模型的损失函数中,阻止深度估计结果较差的像素影响网络的优化过程。本小节将在余下内容中逐个阐述自监督深度估计方法的训练机制、基于教师-学生架构的不确定性估计方法,以及基于深度不确定性遮罩的模型调优方法,并组合以上三点形成一种新颖的自提升框架。

计算机论文怎么写

第五章    原型系统实现

5.1    原型系统总体架构

为了提高传统单目视觉SLAM系统在定位与建图任务上的精度和鲁棒性,本文结合第三章、第四章中提出的基于教师-学生架构的自提升深度估计框架和基于深度不确定性的伪RGB-D视觉SLAM算法,开发了一套能够实时运行的异构视觉SLAM系统,为无人驾驶、元宇宙和无人机等下游应用提供支撑。

如图5.1所示,ULSLAM原型系统分为硬件层和软件层。硬件层包括深度学习服务器、网络通信设备、笔记本电脑,以及一个单目相机。其中,深度学习服务器负责对基于教师-学生架构的自提升深度估计框架提供算力支持。笔记本电脑负责执行基于深度不确定性的视觉SLAM算法,实时生成轨迹地图,并展示供用户交互的可视化界面。单目相机部署在笔记本电脑上,实时地采集周围环境信息并向软件层提供图像序列数据。软件层包括基于教师-学生架构的自提升深度估计框架(简称深度估计框架)、基于深度不确定性的视觉SLAM算法框架(简称SLAM算法框架)以及可视化模块。其中,深度估计框架实现了第三章中描述的自提升训练流程,并对外发布学生模型,提供深度估计和深度不确定性估计服务。SLAM算法框架实现了第四章中描述的UpSLAM算法,并通过远程调用的方式与深度估计框架进行通信,以实时获取学生模型的预测结果。可视化模块为用户提供了操作界面,使用户能够配置系统参数并观察系统运行情况。

计算机论文参考

5.2    自提升深度估计框架

深度估计框架部署在服务器上,由训练模块、预测模块和管理模块组成。其中,训练模块实现了教师-学生架构的自监督训练过程,包括预训练、教学、优化和持久化四个步骤。如3.3小节所述,预训练步骤以自监督的方式训练教师模型,直到其能够预测得到较好的深度图。在随后的教学步骤中,教师模型将预测结果作为监督信号,以有监督的方式训练学生模型,使学生模型学会同时预测深度和深度不确定性。接着,学生模型按照公式(3.15)将深度不确定性图作为遮罩加入教师模型的自监督流程中,进一步提升教师模型的估计精度。最后,当教师模型和学生模型充分收敛后,训练模型将它们的网络参数进行持久化,以供未来预测模块调用。预测模块向外开放了深度估计服务。在接收到感知定位模块的远程调用请求后,预测模块首先接收传来的原始图像,对其进行预处理之后,送入学生模型进行推理,将估计出的深度图和深度不确定性图作为结果返回给感知定位模块。管理模块负责为训练模块和预测模块提供包括数据集管理、模型调度和日志管理在内的基础操作支持。从上述说明中可以看出,在深度估计框架中预测模块和管理模块的流程较为简单,因此本节将以训练模块为主展开介绍。

第六章    结论与展望

视觉SLAM技术是移动机器人完成复杂任务的必要前提,虽然目前已经得到了长足的发展,但是仍然不能满足人们日益增长的需求。传统的单目视觉SLAM方法无法在纹理缺失的区域提取足够多的点,难以应对运动物体和光照变化。而基于深度学习的方法则缺乏后端优化和回环检测等模块,无法有效地在长距离运动后矫正轨迹偏移。为此,本文围绕如何结合传统方法和深度学习方法展开了研究。本文首先针对现有的自监督深度估计方法无法获取深度不确定性的问题,提出了基于教师-学生架构的深度估计自提升框架,通过循环迭代的方式令神经网络显式地预测深度不确定性。除此之外,本文还将该框架与ORB-SLAM3算法相融合,提出了基于深度不确定性的伪RGB-D视觉SLAM算法。最后,将上述两个方法进行拓展,实现了一个基于深度学习的视觉SLAM原型系统。本文的主要贡献包括以下三个方面:

一、提出了一种基于教师-学生架构的深度估计自提升框架。该框架包含两个深度估计网络:教师模型和学生模型。首先通过自训练的方式,利用教师模型的预测结果有监督地训练学生模型,赋予学生模型估计深度不确定性的能力。接着,深度不确定性被作为遮罩引入教师模型的自监督流程中,阻止深度估值不准确的像素参与计算光度损失和几何一致性损失。经过多轮迭代优化后,教师模型与学生模型的平均深度估计误差相对于基线模型分别降低了4.53%和7.55%;此外,与基线模型相比,学生模型预测出的深度不确定性估值在AUSE误差项上相对降低了11.88%。

二、针对深度估计模型与传统视觉SLAM算法的融合策略问题,提出了一种基于深度不确定性的伪RGB-D视觉SLAM算法UpSLAM。UpSLAM算法通过尺度对齐策略,将深度估计模型与ORB-SLAM3相结合,提高了位姿估计结果的鲁棒性和精度。此外,考虑到深度估计结果中存在的噪声可能阻碍BA优化过程,UpSLAM算法实现了基于深度不确定性的自适应权重,从而动态调整特征点的深度约束权重大小。实验结果表明,本文提出的UpSLAM算法的平均位移误差相比于ORB-SLAM3在KITTI数据集的测试序列上平均降低了35.83%,绝对轨迹误差相比于ORB-SLAM3在TUM RGB-D数据集的L序列上降低了80.10%。

参考文献(略)

123
限时特价,全文150.00元,获取完整文章,请点击立即购买,付款后系统自动下载

也可输入商品号自助下载

下载

微信支付

查看订单详情

输入商品号下载

1,点击按钮复制下方QQ号!!
2,打开QQ >> 添加好友/群
3,粘贴QQ,完成添加!!