计算机论文哪里有?笔者根据研究,可以通过逆强化学习的方法利用人类经验进行奖励函数的设计,在给定一个专家之后,通过不断地寻找奖励函数来满足给定的状态信息(即解释专家的行为)。除此之外,还可以利用GAN网络直接从专家轨迹中学得策略,绕过很多其他模仿学习方法的中间步骤。
第一章 绪论
1.2 相关研究
近年来,多智能体强化学习取得了飞速的发展,成为了强化学习最热门的研究领域之一。多智能体强化学习的领域分支非常多,可以从不同的维度对多智能体强化学习算法进行分类。
从算法的求解方法角度考虑,可以将多智能体强化学习算法分为基于时间差分技术的多智能体强化学习算法和基于策略搜索的多智能体强化学习算法,其中基于时间差分技术的多智能体强化学习算法依赖于贝尔曼方程,利用动态规划的思想求解多智能体强化学习问题,而基于策略搜索的多智能体强化学习算法直接进行策略搜索去求解多智能体强化学习问题;再如考虑多智能体强化学习问题的类型,可以分类为静态任务(Static Task)和动态任务(Dynamic Task),在静态多智能体强化学习任务中,不存在“环境状态”的概念,交互策略只在智能体之间存在,而对于动态任务,智能体决策时同时要考虑环境状态序列,因此这是一类更为复杂的问题。
如果根据智能体间的关系来进行分类,最常用的分类方式是三类:第一类是合作任务(Fully Cooperative Task),比如一群机器人合作完成一个任务,这些机器人彼此之间具有完全相同的目标;第二类是竞争任务(Fully Competitive Task),比如很多对抗性的游戏,双方具有完全相反的目标;第三类是混合性的任务(Mixed Task),智能体之间既具有合作性,又具有竞争性。比如对于完全合作的博弈问题,所有的智能体拥有相同的奖励函数。而对于完全竞争的博弈,即零和博弈,一个智能体的目标是让其他所有智能体的回报最小,自己的回报最大。
本文是基于智能体完全合作关系的场景的研究,因此本节将从智能体间的关系这一角度切入,对多智能体强化学习领域的发展进行简单介绍,并着重对完全合作的场景进行详细介绍。
第三章 异构多智能体强化学习迭代融合方法
3.1 基本概念与问题分析
合作型多智能体任务近年来受到了业界的广泛关注,早期的解决方案是团队学习算法和独立学习算法,但是这些算法的缺陷分别是团队学习算法中联合策略的搜索空间随着智能体数量的增加呈指数级增长和所有智能体独立学习会导致对于每个智能体而言其他智能体成为环境一部分,导致环境是非稳态的。为了避免这些问题,研究者们提出了集中式训练分散式执行(CTDE)范式,其中基于值分解的方法成为了合作型多智能体强化学习算法研究的主流,在这种范式下,智能体之间共享各自的策略网络模型来共享各自学到的知识用于生成策略,这被称为参数共享技术,参数共享技术减少了训练网络的参数量,且在集中式训练过程中所有智能体共享的其局部轨迹样本,使得策略训练效率得到了显著的提高。
然而,参数共享技术带来的问题是面对复杂的合作型多智能体任务时,智能体学习到的策略会趋同,这难以适配对智能体异构策略具有高要求的复杂场景。当两个智能体接收的观察值或状态值具有一定程度的共性,这都会导致在面对更为复杂的协作型多智能体任务时智能体学习到的策略的趋同性。相反,如果完全不采用参数共享技术,网络中的参数规模会随着智能体数量的增长而快速增长,会因为状态动作搜索空间的极度增大导致性能的大大下降。
第四章 异构多智能体强化学习的泛化性优化方法
4.1 基本概念与问题分析
4.1.1 泛化性的基本概念
在机器学习中,为了避免可能存在的过拟合问题,训练模型时会将数据集分成训练集和测试集,其中训练集用来估计模型中的参数,测试集用来评估模型的性能,虽然训练集和测试测试集不同,但是它们通常是由相同的基础过程生成的。如同考试时出题人使用考生平时做过的习题,考生会取得高分但是无法体现出考生真实的水平,因此出题人通常会使用同一类题型的题目。
模型的泛化能力普遍被认为是指经过在训练集上训练后,在未“见过”的数据集上的性能,此时的数据集和数据集并不是由相同的基础过程生成。因此机器学习模型的泛化性都建立在一个假设之上,即训练数据的分布需要体现出模型的真实数据分布,并且训练数据的分布和测试数据的分布存在较强的一致性。如果违反这一假设,机器学习中泛化的标准概念便无法成立,也很难证明算法在训练集上进行学习也应在测试集上产生良好结果的期望。引用迁移学习中关于“领域”(domain)和“任务”(task)的定义[45] ,训练的数据集和测试的数据集应该来自同一个“领域”(domain)的同一个“任务”(task):
领域D={X, P(X)}由两个部分组成:特征空间X和特征空间的边缘分布P(X)。如果两个领域不同,即样本的特征空间不同或样本服从不同的分布。以高考录取为例,假设共有2个普通一本院校A、B,1个重点一本院校C,1个艺体类院校D,普通一本和重点一本的院校招收理科生,艺体类院校招收加考专业课的理科生,每所院校都计划招生数一样。院校A按照招生计划和排名情况将录取校线定为500分,显然这一标准可以推广到普通院校B,因为其招收学生的考试科目相同且成绩分布相似,但是无法推广到考试科目不一样的艺体类院校D和招生学生的成绩分布不一样的重点院校C。在学生是否录取这一问题分类上,报考考生的成绩是样本,学校A、B属于同一领域,即普通院校。
4.2 面向异构多智能学习泛化的表征方法
前述的各种多智能体强化学习方法在经过训练后往往会拟合特定的任务,因此缺乏泛化能力使它们往往在面对复杂的异构环境时不能稳定的收敛,目前已经有一些强化学习的学者在博弈对抗场景之外进行了泛化性的研究。如上节所述,Cobbe等人通过修改cutout技术提出了一种数据增强的方法,除此之外其他一些研究则使用了随机种子和游戏视频数据中的不同级别集合来划分测试环境和训练环境的方法。然而不同地图中的对抗任务的一个主要特征是智能体的数量发生了变化,这将导致神经网络的输入空间和状态空间维度的动态变化,前面提到的泛化技术并没有考虑到这一点。针对该问题,在本节中提出了状态建模和特征提取的方法,改进了上一章基于值分解的结合了HFIM方法的QMIX模型。
4.2.1 状态向量建模
对抗中智能体的观察是从环境中获取的部分观察状态,它包含了该智能体所观察到的各种信息,智能体数量的变化通常会改变观察的维度,这会导致神经网络的动态输入。在本小节中,引入了多层矩阵状态表示来处理在不同任务中的动态智能体数量变化。
通常,智能体的观察包括三个部分:敌人的状态𝑆𝑒,盟友的状态𝑆𝑎,自身的状态𝑆𝑚(包括属性、周围地形等)。因此可以表示为:oi=(Sie,Sia,Sim),其中𝑜𝑖表示智能体i的观察值。在不同的对抗任务中,𝑆𝑒和𝑆𝑎的长度往往会随着智能体的数目变化,但是𝑆𝑚不会。将𝑆𝑒和𝑆𝑎称之为公共信息,将𝑆𝑚称之为个体信息。
第五章 结论与展望
5.2 未来展望
“人工智能体未来所面临的环境和动物与人类面临的自然世界一样,本质上是如此复杂,以至于它们需要具备复杂的能力才能在这些环境中成功生存。”强化学习领军人物 David Silver、Richard Sutton 等人在一篇名为《Reward is enough》的研究工作中提到[53] 。该研究认为借助奖励最大化和试错经验就足以开发出具备智能能力的行为,因此强化学习将促进通用人工智能的发展。但是想要到达像人类一样的智能,强化学习需要扩展很多能力,比如人具有的感知能力,可以通过感知获得包括图像、文本、语音等信息,用于分辨朋友和敌人,开车时进行场景解析等;人具有的模仿能力,能从别人的行为中总结出自己的经验;还有人具有的推理泛化能力,能根据自己的经验在新的任务上开展工作。
本文提出的方法有效地体现了博弈对抗任务中的异构性,但是局部共享参数技术会导致训练时间的增加,并且依照智能体的原始特征进行种群划分和迭代相当于在模型中添加了人的理解。为了为实现复杂环境下的强化学习的相关技术研究,未来可以考虑从离线学习或模仿学习的方向入手,来提高效率,加速训练过程,解决过拟合的问题。模仿是与人类和动物智能相关的一种重要能力,它可以帮助人类和动物快速获得其他能力,例如语言、知识和运动技能。在人工智能中,模仿通常被表述为通过行为克隆,从演示中学习,并提供有关教师行为、观察和奖励的明确数据时。通过对重播进行监督学习来初始化训练每个代理,以模仿人类的行为。为每一项比赛训练一个策略,其架构与强化学习中使用的架构相同。为了训练该策略,在每个步骤中输入当前的观察结果,并在每个操作参数上输出概率分布,计算人为操作与策略输出之间的KL差异。除此之外,还应用可以L2正则化进行进一步微调。它还利用人类数据约束探索行为,缩小探索空间,避免产生大量无效的探索或采样。根据研究,还可以通过逆强化学习的方法利用人类经验进行奖励函数的设计,在给定一个专家之后,通过不断地寻找奖励函数来满足给定的状态信息(即解释专家的行为)。除此之外,还可以利用GAN网络直接从专家轨迹中学得策略,绕过很多其他模仿学习方法的中间步骤。
参考文献(略)