研究生毕业论文开题报告范文样本怎么写?本文将以计算机论文为例,为大家分享一篇开题报告的范文样本,标题是“基于深度图像与深度强化学习的机械臂抓取控制研究”,具体详情如下。
一、论文开题报告基本框架
论文开题报告一般由以下八个部分组成(每个院校都有固定的开题报告模板,可能有所差异,大家可以参照各自学院的要求进行写作)。具体内容如下:
1.选题的背景及意义
2.研究目标及内容
3.研究方法
4.论文大纲
5.技术难点和可能的解决方案
6.预期成果及可能的创新点
7.论文工作计划
8.参考文献
二、选题的背景及意义
1.1.1 研究背景
近年来,随着全球经济水平的稳步提升,人工智能技术的研发得到了更多人力与财力的支撑。其中智能机器人作为主要的人机交互代表,遍布在相关的工业以及服务业当中,它们在提升生产效率、降低人力成本以及提供安全保障等方面扮演着不可或缺的角色。据国际机器人联合会(IFR) 2019 年 9 月发布的《全球机器人报告 2019》中的报告数据,2018 年全球工业机器人出货量达到 42.2 万台,比上年增长 6%,年销售额达到 165 亿美元。人们享受到智能机器人给日常生活以及工业生产带来的福利,智能机器人的研发也从在流水线上简单重复预先设置好的工作流程转变到类人的自主决策智能控制。智能机器人所需具备的功能中,机械臂抓取是实现人机交互的主要手段之一。人们在智能机器人抓取任务上深入研究的同时也碰到了一些困难:智能机器人在实际工作环境中进行抓取时经常会遇到大量结构未知的物体,这对于依照规则输出动作的机器人系统而言难以输入合适的数学描述;智能机器人在新环境中自主学习并执行任务的水平还远未达到现代人们生活的需要。
1.1.2 研究意义
针对抓取结构未知物体的问题,初期的研究通常是由视觉传感器获得图像信息并从中人工进行特征提取,再借用传统机器学习算法从监督数据中学习人工设计特征与抓取位姿之间的对应关系[1][2]。然而受人们对图像特征认知的约束,人工设计的特征表达具有局限性,无法进行更高难度的表示,所以往往只对特定的目标物体或抓取任务有效果。自从 2012 年开始,以卷积神经网络为主体的深度学习方法,在计算机视觉等多个人工智能技术领域获得了前所未有的成果,在图像分类、目标检测、语义分割等应用领域甚至超越了人类本身的水平[3]。借鉴深度学习方法在计算机视觉技术中的广泛应用,在机械臂预测抓取位姿研究中利用卷积神经网络取代早期机器学习算法有着重大研究前景。首先,和人工设计特征作比较,卷积神经网络基于规模庞大的数据集可以学习泛化效果更优的特征表示,从而提升抓取检测算法的性能;其次,伴随着仿真平台的开发升级与各种视觉传感器的广泛使用,现在已经有大量经过真实实验或仿真制作的机械臂抓取检测数据集提供给研究者们使用[4][5][6]。因此可以期望基于大规模样本数据和卷积神经网络可以构造泛化性能更好的抓取检测系统,从而提升智能机器人在非结构化环境中与各类物体的交互水平。
目前多数机械臂只能够依照既定的程序,完成机械化的操作流程,在特定的流水线上执行任务。要想机械臂具有灵活正确选择动作的能力,只凭借设计经验来编写程序实现控制,机器人系统适应复杂、不确定的环境会有很高的难度。机械臂智能体经过反复自主训练进而提升适应环境的水平,可以在很少人工干预的情形下进行熟练的抓取操作。近年来各种深度强化学习算法的提出,为实现机械臂自主学习、智能控制提供了希望。深度强化学习算法可以使机械臂智能体与复杂的动态环境建立起一种交互关系,其不断探索环境的过程与人类的学习过程非常相似。人工智能的核心是使得智能体可以自主学习、不断训练和优化其性能,强化学习的研究让机械臂可以自主学习抓取操作,这为实现机械臂自主控制带来了可能性。
三、研究内容
考虑到机械臂执行抓取任务需要对物体进行抓取检测以及对各个关节的角度变化进行控制,本文从由物体深度图像生成最佳抓取位姿以及运用深度强化学习算法训练机械臂控制抓取操作两方面研究并做仿真机械臂抓取物体的实验。
第 1 章为绪论,在理论方面介绍了深度学习和强化学习领域具有代表性的算法的研究现状,在应用方面介绍了抓取检测算法、抓取检测数据集和深度强化学习训练机械臂控制抓取操作的研究现状。后续章节的研究内容会借鉴绪论中介绍过的研究成果。
第 2 章主要讲卷积神经网络的构成和训练网络参数的学习算法,并详细介绍了本文在运用深度强化学习算法训练机械臂控制抓取操作部分要用到的深度确定性策略梯度算法。这一章讲述的理论知识为后四章的研究工作打下基础。
第 3 章和第 4 章是基于深度图像的抓取检测部分。首先借鉴 AlexNet 网络结构的设计思想在网络深度和卷积核大小等方面改进了现有的生成抓取卷积神经网络,网络可以预测每个像素抓取的质量和位姿。其次利用 Jacquard 抓取检测数据集训练改进的卷积神经网络,并在测试集和验证集上进行网络性能的测试和验证。最后将泛化性能较好的网络模型运用在配备 Intel RealSense SR300 RGB-D 相机的 Kinova-Mico 6 自由度仿真机械臂上进行 ROS 中的物体抓取实验,分别以开环的方式在静态的物体上,闭环的方式在动态移动的物体上进行实验。
第 5 章和第 6 章是基于深度强化学习算法训练机械臂控制抓取操作的部分。两章都有对深度强化学习算法进行改进,并通过仿真实验进行对比。第 5 章在较简单的二维仿真机械臂上进行实验,其中的状态信息可以通过环境部分的程序代码直接计算出来,第 6 章的机械臂是在 ROS 中的,状态信息添加了通过摄像头捕捉的环境图像,利用卷积层和池化层对图像信息进行特征提取,最后通过全连接层将机械臂关节信息与图像特征合并,从而估计策略网络的输出动作。
四、研究方法
参数初始化方法:Xavier 初始化
要高效地训练神经网络,给参数选取一个合适的随机初始化区间是非常重要的。通常来说,参数初始化的区间应该考虑神经元的性质进行不同的设置。如果一个神经元的输入很多,它的每个输入上的权重就应该设置小一些,来避免神经元的输出过大(当激活函数为 ReLU 时)或过饱和(当激活函数为 Sigmoid 函数时)。 初始化一个深度网络时,为了缓解梯度消失或爆炸问题,尽可能保持每个神经元的输入和输出的方差一致,根据神经元的连接数量来自适应地调整初始化分布的方差,这类方法称为方差缩放(Variance Scaling)。其中一种根据每层的神经元数量来自动计算初始化参数方差的方法称为 Xavier 初始化[68]。
随机策略与确定性策略 确定性策略是和随机策略相对而言的,对于某一些动作集合来说,它可能是连续值,或者非常高维的离散值,这样动作的空间维度极大。
如果使用随机策略,即像 DQN 一样研究它所有的可能动作的概率,并计算各个可能的动作的价值,那么需要的样本量是非常大才可行的。于是有人提出使用确定性策略来简化这个问题。 作为随机策略,在相同的策略,在同一个状态处,采用的动作是基于一个概率分布的,即是不确定的。而确定性策略则简单点,虽然在同一个状态处,采用的动作概率不同,但是最大概率只有一个,如果只取最大概率的动作,去掉这个概率分布,那么计算就简单很多。即作为确定性策略,相同的策略,在同一个状态处,动作是唯一确定的,即策略变成 (s) a
五、研究结论
本文针对机械臂在抓取任务上的两大问题,对未知物体的抓取预测以及抓取过程的机械臂自主运动规划,利用并改进了生成抓取卷积神经网络实现了网络参数少、像素级别的抓取预测,利用并改进了深度确定性策略梯度算法实现了机械臂在抓取任务中运动规划的快速稳定收敛。
本文的研究工作总结如下:
1.相对于参考文献中使用传统的物体数量稀有的 Cornell 数据集,本文运用了样本规模更大,抓取标签更丰富的 Jacquard 数据集进行抓取预测网络的训练,并依据 AlexNet 网络结构的设计思想改进了网络的结构,在基于样本深度图像的验证集上获得了高达 87.5%的预测准确率。
2.将训练好的网络模型运用到 ROS 中装载了深度相机的六自由度仿真机械臂上,对静态物体采取开环的方式抓取,对动态移动的物体实施视觉伺服进行闭环控制抓取,在具有对抗性几何结构的物体集上各个实验均有超过 80%的成功抓取率。
3.基于奖励函数和回放经验采样策略两方面对现有的深度确定性策略梯度算法进行改进,并运用到仿真机械臂实验平台上,改进策略使得智能体在训练过程中的平均奖励和抓取成功率都有所提升,平均训练步数有所下降,智能体在改进的算法下进行训练,能够更快更稳定地达到收敛状态。
六、论文进度安排
20XX年11月01日-11月07日 论文选题
20XX年11月08日-11月20日 初步收集毕业论文相关材料,填写《任务书》
20XX年11月26日-11月30日 进一步熟悉毕业论文资料,撰写开题报告
20XX年12月10日-12月19日 确定并上交开题报告
20XX年01月04日-02月15日 完成毕业论文初稿,上交指导老师
20XX年02月16日-02月20日 完成论文修改工作
20XX年02月21日-03月20日 定稿、打印、装订
20XX年03月21日-04月10日 论文答辩
以上是论文开题报告怎么写的相关内容,如果想了解更多论文写作资料,可以随时在本网站查阅,如果想寻找论文写作帮助,可以在线咨询。