对抗环境下的多无人机编队方法和队形变换研究
肖雁冰 张迎周(导)南京邮电大学
标签(空格分隔): 论文阅读
关键词: 多无人机编队、队形变换、分布式一致性算法、强化学习
一、研究现状探究
1.1、多无人机编队方法问题的研究现状
构建多无人机系统执行作战任务的过程包括:分析建模、组建编队、任务分配、路径分配、执行任务,当遇到突发威胁或者任务发生改变时还有队形变换等步骤。
?? 其中多无人机的编队方法始终作为基础支撑起来整个任务。
多无人机编队控制策略:集中式控制策略和分布式控制策略
**集中式控制策略:**集中式控制策略要求无人机编队中至少存在一架无人机能够知晓所有无人机的飞行状态信息,根据这些信息,规划出所有无人机的飞行策略,从而完成作战任务。集中式控制策略的优点是实现简单、理论完备;缺点是缺乏灵活性、容错性,编队内通信压力大。
**分布式控制策略:**分布式控制策略不要求编队中存在知晓所有飞行状态信息的无人机,只需知晓邻近无人机的状态信息便可完成编队控制。分布式控制策略的优点是降低了对无人机通讯能力的要求,提高了编队的灵活性;缺点是实现较为困难且编队受到干扰可能会变大。
1.2、多无人机编队重构与队形变换问题的研究现状
多无人机编队重构和队形变换:机群在执行任务的过程中,由于已完成部分任务或因突发状况导致机群改变原定任务目标或者改变原定的编队结构。
??在进行多无人机编队重构与队形变换的过程中,需要为每架无人机重新制定在编队中的新位置,并为每架无人机生成从原来的编队位置到新编队位置的飞行轨迹。
这些飞行轨迹必须以无人机的安全飞行为前提,同时满足无人机的动力学特征、物理约束条件等客观约束条件。无人机的编队重构与队形变换是无人机编队控制方向的重要研究内容之一,它是在动态环境中对上一小节中介绍的无人机编队方法进行调整,实现无人机之间的互相支援与补充,从而使得多无人机编队适应动态环境中的变化,解决动态环境中的各种威胁,确保多无人机编队最终顺利且高效地完成任务。多无人机编队重构与队形变换方向的研究起步较晚,但仍然取得了不少的成果;同时,与多无人机的路径规划相比,虽然编队重构与队形变换侧重的方向不同,但路径规划方向的研究成果仍然有不少的参考价值。
1.3、研究内容及创新点
二、背景知识
2.1、多无人机编队方法
多无人机的编队协同包含了无人机集群编队的保持和编队的变换。其中编队的保持是指:机群中的无人机保持相对位置不变;编队的变换是指:无人机在接收到某些信 后迅速地做出队形的改变。为了实现多无人机的协同作战必须保证多无人机机群存在一个安全、可靠且高效的编队方法。国内外现存的各类编队方法,从无人机的编队控制原理角度出发,可以将其大致分为集中式控制方法和分布式控制方法两大类。除此以外,多无人机编队控制方法又可以通过以下三种主要模式进行实现:长机-僚机法、虚拟结构法和行为控制法。
2.11、长机-僚机法
从控制原理的角度来看属于集中式控制方法。长机-僚机法是目前多无人机编队控制中最常被使用的方法。
长机-僚机法的优点:模型简单、直观,易理解,易实现,而且体系稳定成熟。
长机-僚机法的缺点:第一,应用长机-僚机法的无人机系统过于依赖长机,当长机发生故障,整个系统将失效,导致任务失败;第二,长机-僚机法存在误差传导的问题,在某些控制策略下,僚机和僚机之间存在关联,与长机相邻的僚机所产生的误差将叠加到与长机较远的僚机上。
2.12、虚拟结构法
虚拟结构法从控制原理的角度来看同样属于集中式的控制方法。虚拟结构法最早由 Anthony Lewis M 提出。在应用了虚拟结构法的无人机编队中并没有指一架被指定的无人机作为长机,而是将多无人机机群当作一个统一的虚拟刚体。无人机编队设定一个虚拟的几何中心,编队中的所有无人机按照某种控制策略和队形,参照这一虚拟几何中心编队飞行并执行任务。 虚拟法的优点:解除了长机-僚机法中对于长机的依赖,同时也解决了误差传导问题,使得编队控制的精度提高。
虚拟法的缺点:该方法是一种集中控制方法,对系统的通信能力要求较高,且无法发挥出无人机的自主性。在紧急的作战环境中,无人机依然需要将情况反馈给控制中心后才能做出反应,存在延迟。
2.13、行为控制法
行为控制法从控制原理的角度来看属于分布式控制方法。应用行为控制法的多无人机编队将整个机群分解成多个子系统,每一个子系统中设定了几种经过计算并通过数学表达式定义的基本行为控制方法,如队形组合、躲避障碍等。子系统中的无人机可以通过局部的信息交互并利用基本行为控制方法达到编队的目的。
行为控制法的优点:编队的适应性强,编队中的无人机碰撞避免易于实现。
行为控制法的缺点:子系统的行为定义困难,设计复杂。
2.2、强化学习
强化学习是一种涉及计算机科学、仿生学、统计学等多个领域的综合性科学思想。
2.21、基本概念
强化学习(Reinforcement Learning,RL),又被称为再励学习或评价学习,是隶属于机器学习但有别于传统机器学习的重要概念。强化学习独特思想在于强调不仅利用已有的数据,还利用通过对环境的探索获得的新数据,并将这些新数据循环往复地更新迭代到当前模型中。在强化学习中,学习是为了更好地对环境进行探索,而探索则是为了获取数据进行更好的学习。强化学习的思想最早可以被追溯到巴甫洛夫与狗的经典条件反射实验,并在 1957 年,由美国学者 Richard Bellman 总结出了强化学习的核心模型——马尔可夫决策过程(Markov Decision Process, MDP)。
2.22、马尔科夫决策过程
马尔可夫决策过程是一个无记忆的随机过程,每一个状态包含了所有的历史信息,即当前做出的决策仅与上一个状态有关。马尔可夫决策过程通常由一个四元组构成: M = M= M=S,A,Psa?,R>。其中 S S S代表了有限空间中的状态集合(states); A A A代表了有限空间中的动作集合(actions); P s a P_{sa} Psa? 代表了状态转移的概率集合,即在当前 $s∈S $的状态下,选择行动 $a∈A 后 会 转 移 到 其 他 状 态 的 概 率 ; 后会转移到其他状态的概率; 后会转移到其他状态的概率;R$ 代表了回 函数,通常情况下它是一个与状态和动作相关的函数可以表示为 r ( s , a ) r(s,a) r(s,a)。
R s a = E [ ∑ k = 0 ∞ γ k r k + 1 ∣ S = s , A = a ] (1) R_{s a}=Eleft[sum_{k=0}^{infty} gamma^{k} r_{k+1} mid S=s, A=aright]tag{1} Rsa?=E[k=0∑∞?γkrk+1?∣S=s,A=a](1)
其中 γ γ γ是折扣因子,取值在 0 到 1之间,使越靠后的回 对回 函数的影响越小,模拟出了未来回 的不确定性,同时使得回 函数有界。
2.23、Q-Learning和SARSA
Q-Learning 算法是一种更勇敢、贪婪的算法,它唯一的目标就是最大化 Q 值;而 SARSA则是一种相对胆小、保守的算法,它也能不断地想着目标进发,但它也对错误和死亡更敏感,更在乎每一次的决策。
2.24 多智能体强化学习
标准的强化学习算法主要包含四大要素,分别是:环境、状态、动作和值函数,通过构建数学模型,如马尔可夫决策过程,解决问题。目前针对单个智能体(Agent)即单智能体强行学习算法的研究已经构建了完善的体系,并取得了丰硕的成果。然而单个智能体的处理能力和效率始终是有限的,利用多智能体强化学习算法来解决复杂环境中的问题是有效的途径。当一个系统中存在多个能够单独执行任务的智能体时,该系统便被称作多智能体系统(Multi-Agent System,MAS)。在应用多智能体系统处理问题的场景中,问题解决的重点在于充分发挥整个系统的能动性和自主性,而不在于强调单个智能体的智能性。在某些场景中往往无法简单地使用单智能体的强化学习算法解决多智能体的问题,因此,目前专家学者对于多智能体强化学习算法的关注和研究便不断提高。
2.3、分布式算法
随着系统中的机器数量以及信息量、数据量的高速增长,服务器宕机从而引起损失的可能性不断提高,在这样的背景下,分布式一致性算法或被称为分布式共识算法应运而生。
####2.31、CAP定理
在分布式存在一个非常著名的定理:CAP 原理。该定理最早是由柏克莱加州大学的计算机领域的教授埃里克·布鲁尔于 2000年在分布式计算原则研讨会提出的假想,并于 2002 年被麻省理工学院的两名学者赛斯·吉尔伯特和南希·林奇证明从而成为定理。CAP 定理(CAP theorem),即布鲁尔定理(Brewer’s theorem),指出对于任意分布式计算系统而言,不可能同时达成以下三点:一致性(Consistency)、可用性(Availability)和分区容错性(Partition tolerance)。 CAP 定理中的一致性是指分布式系统中的各个节点必须拥有同一份最新的数据副本;CAP 定理中的可用性是指当分布式系统中的部分节点出现问题时,系统仍然能对外提供正常的读写操作;CAP 定理中的分区容错性是指当分布式系统的 络中出现某些问题从而导致实际上的 络分区存在,在 络恢复后能够自主正常地处理这些 络分区从而重新达成分布式系统中数据的一致性和可用性。
####2.32、算法实例
分布式系统主要通过两种模式实现各个不同节点之间的互相通信,它们分别是:共享内存(Shared Memory)和消息传递(Message Passing)。其中,共享内存这种模式由于空间限制、机器性能等各方面的因素,在大规模的分布式系统中应用较为困难。因此目前主流的分布式系统中的通信解决方案仍然以消息传递的形式为主。 然而以消息通信为基础构建出来的分布式系统,无法避免地存在如下的错误:消息出现丢失、延迟,进程推进慢、发生重启。而分布式一致性算法的研究就是要解决这些问题。 Paxos 和 Raft 算法是分布式一致性算法中最著名的两大算法。
三、基于改进的长机-僚机法的多无人机编队方法
3.1、多无人机编队相关模型
声明:本站部分文章及图片源自用户投稿,如本站任何资料有侵权请您尽早请联系jinwei@zod.com.cn进行处理,非常感谢!