计算机论文哪里有?本文构造了一些稀疏表征方法并提出了相应的适用算法。对于以图像输入的问题,我们可以采用分段的深度 Q 学习网络算法,由于卷积神经网络强大的表征能力,深度强化学习在端到端的学习方面始终有着其独特的优势。
第一章 绪论
1.2国内外研究现状
本章从值函数估计以及在线强化学习与稀疏表征两方面对现有的方法进行综述。
1.2.1 值函数估计
传统的值表方法常常受制于维度灾难问题,即大规模或连续的状态动作空间。而求解维度灾难的途径是降低状态和动作空间,采用远小于状态、动作个数的参数对值函数𝑉进行估计,即值函数估计。值函数估计基于模型通常可以被分为线性方法和非线性方法。线性方法是由一组特征向量和参数线性求和而成。自 1988 年 Sutton 提出基于𝜆回报的时序差分学习[20](Temporal Difference Learning,TD)以来,时序差分学习被学者们不断改进,1996 年 Bradtke 等提出最小二乘时序差分学习(Least Squares Temporal Difference Learning,LSTD)算法[21],2002 年,Boyan 提出了在策略 LSTD(𝜆)算法[22],2006 年 Choi 提出的 Kalman滤波 TD 算法[23],2019 年 Lee 等人总结并提出了几种基于目标的时序差分学习(Target-based TD)。这些方法在同策略(On-Policy)的设置中都被证明收敛到一个合适的不动点,但是,由于这些方法均采用基于均方值误差(Mean Squared Value Error,MSVE)的半梯度更新方式,在异策略下,都有发散的风险[4]。为了保证算法的稳定性,1995 年 Baird 提出了基于贝尔曼误差(Bellman Error)的残差梯度(Residual-Gradient)方法,这是一种真正的梯度方法,而在 2010 年 Scherrer 指出该残差法收敛到一个斜投影贝尔曼不动点解[24]。无论是在同策略(On-Policy)还是异策略(Off-Policy)的情况下,贝尔曼残差法均有严谨的收敛性保证,但是通常收敛的解不是最优解,为此,Sutton 进一步于 2008 年提出了基于梯度的时序差分学习(Gradient Temporal Difference,GTD)[11],于2009年提出基于梯度的时序差分学习2(GTD2),带梯度修正的线性时序差分学习(Linear TD with Gradient Correction,TDC)[12],于 2016 年针对异策略方法提出加强时序差分学习算法(Emphatic Temporal Difference,ETD)ETD(𝜆)算法[10]。2018 年,Yu 提出了基于广义贝尔曼等式 LSTD(𝜆)[25]。这些线性方法结构简单,有着严谨优雅的理论证明,但是依赖专家定义的特征。
第三章 分段深度 Q 学习网络
3.1动机
在很长一段时间内,强化学习被广泛的宣传在于其一个相当大的优势,即在线的天性[4]。但是,随着深度强化学习(DRL)在许多任务,诸如围棋,雅达利游戏等取得了巨大的成功[17,27],在线的天性在深度强化学习中逐渐退化,体现在工程上的环境复杂导致交互困难,真正的在线算法很难实现,正如谷歌的 Deepmind 所指出那样,从智能体收集的经验中在线的训练会限制强化学习在复杂真实的环境问题中的应用[15],于是谷歌的 Deepmind 提出了离线强化学习。不可否认的是离线强化学习为可以作为解决交互困难的问题,但是离线的方法同样面临着依赖大规模采样以及样本有效利用的问题,为此,在线深度强化学习仍然有着广泛的现实意义,特别是在增强样本有效,减少计算的复杂度等方面上。
在线深度强化学习算法是难以实现的,其中一个关键问题是在神经网络中的灾难性遗忘[34]而导致了算法不稳定。深度强化学习,即深度 Q 学习网络(Deep Q-learning Network,DQN),通过两个强有力的工具牺牲了在线更新的方式而减缓了这种遗忘或干扰。一个是基于经验回放的批量更新,如优先权经验回放[28]等,通过一个经验池存储样本,并随机的无放回采样,这样打破了样本之间的相关性。另外一个是目标网络,典型的算法有双深度 Q 学习网络(Double DQN)[29],平均深度 Q 学习网络(Averaged DQN)[30]等,目标网络通过减少方差提升了算法的稳定性,此外基于目标的方法同样在时序差分算法中也被证明有稳定收敛的表现[44]。基于这两种非在线更新的技巧,深度强化学习算法研究得以不断发展,但是同样的带来了一些遗憾:
1. 牺牲了收敛速度; 2. 随着网络结构设计不断加深,计算的复杂性也不断提高; 3. 通过监督学习的思想,依赖有效的采样。
第五章 基于双时间尺度优化的在线关注核时序差分学习
5.1动机
在线强化学习一直以来都是一个热门的研究领域,从传统的基于线性函数估计的时序差分学习[7]开始,在线强化学习相比较离线强化学习就有着其独特的优势:一方面,通过自举的方式带来了更快速的学习;另一方面,一次只利用一个样本,不仅带来了计算的有效性,同时也增强了数据的有效性,所谓的数据有效性是指我们能够更加关心经常遇到的状态而减少对于不经常遇到的状态的负担[4]。在本文中,强调的是真正在线强化学习,其中学习过程仅依赖当前样本或经验,并且一次只更新一个[16]。
但是,随着基于神经网络的深度强化学习[17,18,29,31]不断发展,值函数估计的结构越来复杂,这给在线强化学习带来一些新的问题和挑战:其一,需要一个能在真正在线设置下奏效的函数估计模型;其二,真正在线强化学习需要解决灾难遗忘或干扰问题;其三,在线强化学习需要有着稳定性的保证。幸运的是,稀疏表征很好的捕捉状态局部属性从而有效的减少干扰。为此,在先前的工作中,我们已经分析对比了传统的线性稀疏表征,如块编码[7],n 元组[35],以及非线性的修正线性单元[36]、Dropout[37]等,并总结了具有竞争力的稀疏表征应该具有的四个特性:可学习的、无先验的、非截断的和显式的。于是,我们创造性地将注意力机制引入到了稀疏表征,并结合基于核的函数估计[48],构造了关注核模型。在此基础上,我们基于半梯度优化的时序差分学习框架,提出了初步的关注核时序差分学习,一定程度上解决了前两个问题,而对于算法的稳定性分析尚未给出。传统的半梯度时序差分学习稳定性分析是建立在线性函数估计和同策略(On-Policy)算法基础之上的[10],缺少其中任一条件,算法极有可能出现不稳定的现象。尽管关注核时序差分学习使用了同策略的框架,但是关注核函数估计是非线性的,因而其稳定性是很难保证的。
5.2背景知识
由于关注核的值函数估计是非线性的,为了保证关注核的值函数估计的稳定性,我们采用了双时间尺度优化的方法[57]。从过程的角度讲,双时间尺度优化可以被分成快慢两个部分。正如图 5.1 所示,
在线关注核时序差分是依据传统的强化学习以及同策略的时序差分学习框架。考虑到在线的字典构造是一个不断增长的过程且有界的过程,我们可以通过调节阈值𝜇1和探索率𝜖使得字典快速的收敛,也就是说字典收敛的时间非常短且可以忽略不计。于是在线关注核时序差分学习的计算时间复杂度为𝑛 + 𝑛2+ 𝑛𝑚,这里的𝑛 = |𝐷∗|是稳定字典里元素的个数,𝑚 = |𝑠|是状态的维度。实际上,状态的维度通常是远远小于字典的尺度𝑚 ≪ 𝑛,因而在线关注核时序差分学习每一步的更新时间复杂度是𝑂(𝑛2)。
第六章 总结与展望
6.2未来展望
本文构造了一些稀疏表征方法并提出了相应的适用算法。对于以图像输入的问题,我们可以采用分段的深度 Q 学习网络算法,由于卷积神经网络强大的表征能力,深度强化学习在端到端的学习方面始终有着其独特的优势。而在以向量输入的问题中,我们可以采用基于关注核的在线强化学习。特别地,基于半梯度优化的算法有着更加快速的学习速率,但是在稳定性方面有所缺陷,为此,对于重视速率的应用上可以使用该方法。而在强调稳定性的问题上,我们可以使用基于双时间尺度优化的版本。
虽然在相应的实验或者理论分析都证明了这些方法的有效性,但实际上它们还存在很多不足,需要在未来工作中得到进一步深化和扩展。具体地,本文的未来工作可概括如下:
1.对于分段深度 Q 学习网络,尽管去掉了目标网络,但是对于经验池的依赖依旧敏感,并不能实现真正的在线算法,为此,未来需要进一步的对经验回放机制作约简。
2. 在分段深度 Q 学习网络中,随机混合优化依赖人为定义的概率,此外在异策略下缺乏理论保证,为此,未来需要设计一个更加自适应的优化方法,并给出相应的收敛性分析。
3. 关注核函数估计的半梯度方法同样缺乏理论分析,未来需要加深关于理论的研究
4. 关注核时序差分学习算法侧重于离散动作空间问题,未来我们将该算法扩展到解决连续动作的强化学习算法中,如策略梯度和其变种[19,32]。
5. 除了注意力机制,未来,我们将关注其他满足文中四个特性的稀疏表征方法。
6. 为了保证关注核函数估计算法的稳定性,我们采用了双时间尺度优化方式,除此之外,是否有更好的优化算法也能保证收敛性?
7. 我们提出的关注核函数估计方法成功应用在了强化学习领域,对于其他机器学习[63]领域仍然有可拓展的空间,比如关注的支持向量机(Attentive SVM)等。
参考文献(略)