一、分布式人工智能与多智能体系统的研究与发展(论文文献综述)
柴小丰[1](2021)在《多智能体系统事件触发编队控制研究》文中指出多智能体系统由多个具备一定感知、计算、执行与通讯功能的智能体组成,和单个个体执行任务相比,多个体协作可以提高任务执行能力与效率,降低单个体成本,增加系统冗余和抗风险能力,因此多智能体系统协同控制问题受到越来越多研究人员的关注。编队控制是多智能体协同控制的重要研究分支之一,目标是使多个智能体根据任务需要,在运动过程中保持或变换队形,其在军事领域和民用领域具有广泛的应用前景,如战斗机编队、卫星编队、无人机表演等。实际系统中,由于通讯带宽和计算资源有限,并且要求系统在指定时间内形成编队,因此研究提高多智能体系统编队控制策略的收敛速度,以及节省有限的计算和通讯资源,具有重要的实际意义。本文主要研究了多智能体系统事件触发编队控制问题,针对一些典型的系统模型与控制目标,设计了不同的分布式控制策略,包括事件触发控制、自触发控制、有限时间控制、固定时间控制与动态事件触发控制等。论文主要研究内容包括以下几个方面:1.针对多智能体系统的时变编队问题,分别设计了基于观测器的事件触发控制策略与自触发控制策略,通过将状态观测误差引入事件触发函数,可以提高状态观测器收敛速度与系统编队精度。两种控制策略均可实现时变编队控制,并且避免Zeno行为,同时自触发策略可以避免智能体之间的连续通讯。2.对于受扰多智能体系统,研究了具有领航者的编队跟踪控制问题,分别设计固定时间事件触发与自触发控制策略。固定时间控制可有效提高系统收敛速度,并且收敛时间与系统初始状态无关;事件触发控制可以降低控制器更新次数,自触发控制可以避免智能体之间的连续通讯。3.针对基于采样数据的多智能体系统,研究了一阶多智能体系统基于采样数据的编队跟踪控制问题,分别设计了有限时间事件触发与自触发策略,后者可以避免连续通讯。4.对于基于采样数据的非线性高阶多智能体系统,研究了基于采样数据的编队控制问题,设计了分布式动态事件触发机制,通过动态调整触发函数参数,可以有效减少系统触发次数。5.目前多智能体协同控制研究多以理论研究与仿真验证为主,本文利用多无人车实验平台,对多智能体编队控制策略进行实验验证,分别设计了基于采样数据的多无人车有限时间事件触发编队跟踪实验与固定时间事件触发编队跟踪实验。通过实验对比,验证了有限时间控制、固定时间控制与事件触发控制与自触发控制的有效性。
潘昭天[2](2021)在《基于博弈论和多智能体强化学习的城市道路网络交通控制方法研究》文中进行了进一步梳理信号交叉口交通流的受控过程对城市道路网络性能具有重要影响。然而,现有城市道路网络交通控制方案优化设计仍处于优化-性能改善-需求增加-性能恶化-再优化的循环困境。当经济、技术、城市建设程度迅速发展引发交通需求变化加速、交通流动态性增强,优化困境面临周期缩短的问题。交通控制方案频繁迭代优化将造成城市交通建设成本增加。抑制相应随机性诱发交通拥堵能力不足是现有交通控制方法面临的主要问题。因此,有必要针对城市道路网络交通流动态、随机性展开城市道路网络控制方法研究。此外,网络节点失效扩增交通拥堵蔓延引发路网性能下降也需要考虑。围绕城市道路网络交通控制方法研究:(1)在城市道路网络分布式的交通控制方法与交通分配、信号控制耦合方法之间,对交通信号控制领域理论体系中作进一步补充完善;(2)使交通信号控制系统具备自适应改进能力,能够随路网拓扑关系及交通需求共同演化,避免迭代优化的循环困境。论文从随机出行需求下的分布式动态交通分配、应对随机出行需求影响的分布式交通信号控制、应对网络节点失效的信号控制系统鲁棒性增强三个方面展开研究。(1)分布式动态交通分配方法,对随机出行需求分配,从根源抑制路网交通拥堵产生,为后续研究的关键基础。构建异构建议者多智能体团体,耦合异构建议者建议约束决策者动作空间,使其在有限动作空间内采用混合策略形式分配出行需求,提升多智能体强化学习在动态交通分配任务方面的运行效率;构建差异化回报函数机制,使智能体在学习中实现用户均衡原则;设计自适应学习率机制,提升方法对随机出行需求以及交通状态变化的敏感性,增强其再学习能力。经验证分析,分布式动态分配方法有效改善城市道路网络中个体出行者平均出行时间、提升网络整体吞吐量水平,且出行需求分配结果满足用户均衡原则。此外,研究也表明,与分布式交通信号控制方法相耦合,能够有效降低路网内出行延误水平。(2)分布式交通信号控制方法,从应对出行需求随机性影响出发维持城市道路网络性能稳定、进而缓解抑制交通拥堵发生、蔓延,是研究中的重要核心。引入博弈中混合策略纳什均衡概念,改进多智能体强化学习决策过程,使智能体隐式获取全局信息,增强其在不同随机出行需求状态下维持路网性能稳定的能力;在混合策略纳什均衡解基础上,引入Jensen-Shannon散度构建自适应学习率机制,增强信号控制智能体对局部交通流状态变化的敏感性,使其具备收敛后再学习能力。经验证分析,分布式交通信号控制方法在应对出行需求骤增、起讫点间出行需求分布骤变以及路网中出行需求分布不均衡、到达率随机引发随机性影响方面具有良好控制效果,将城市道路网络出行延误维持在较低水平。然而,验证也表明其仅适用于城市道路网络流量输入适中的情况下,是一种对城市道路网络时空资源深度挖掘的方法。(3)应对网络节点失效的信号控制鲁棒性增强方法,侧重于在路网结构受损时,强化信号控制方法维持路网性能的能力,是对重要核心的补充。立足于多智能体系统,构建对城市道路网络节点等级度量方法,实现对路网关键节点判别;引入路网节点交通状态,构建节点各向异性影响力传播机制,实现节点交互关系动态演化;根据节点交互结构差异,修正相应信号控制智能体混合策略纳什均衡求解决策过程及回报函数机制。经验证分析,在少量节点失效情况下,论文方法能够较好的将城市道路网络出行延误维持在较低水平,且在节点失效时间增加时有效抑制路网性能下降速度。然而,当路网拓扑结构严重受损、承载能力无法满足出行需求时,该鲁棒性增强机制难以提升信号控制方法性能。综上所述,论文构建动态交通分配方法出行需求分配从根源抑制交通拥堵的形成,该方法可独立执行交通分配任务,与分布式控制耦合使用可以有效抑制拥堵,还是信号控制鲁棒性增强机制的关键接口。针对随机出行需求影响构建的分布式交通信号控制方法,能够在局部交互过程中隐式地感知全局信息,有效缓解、抑制随机出行需求诱发的交通拥堵。而信号控制鲁棒性增强机制,构建节点间交互关系,实现信号控制方法网络节点失效鲁棒性提升。将分布式动态交通分配、分布式交通信号控制、信号控制鲁棒性增强机制相融合,使交通控制系统能够有效应对频繁的优化困境且具跟随城市道路网络共演化的能力。
周思佩[3](2021)在《多智能体深度强化学习协作技术研究与应用》文中认为智能体是指通过对环境进行感知,并利用既有知识或者自身不断迭代的策略,与环境进行交互,完成指定任务的个体系统。而多个这样的智能体可以组成一个多智能体系统,可以解决单个智能体能力受限的问题。随着人工智能的发展,强化学习技术常应用在智能体建模上,尤其是深度强化学习可以增强智能体的感知、学习、决策能力。同时,多智能体之间的协作也会提高整体系统的能力上限,可以处理更为复杂的任务。但是,目前基于深度强化学习的多智能体协作问题的相关研究仍然不足,在面对环境部分可观、动态变化以及维数灾难时,多智能体之间的协作还不够充分,仅有局部或部分的合作不足以释放出多智能体协作的潜能,因此还需进一步完善与研究。本文总结了当前多智能体协作研究的历史与现状,以及当前研究面临的主要问题,引出了多智能体深度强化学习协作技术研究的重要性,并详细介绍了相关技术的原理。主要的研究内容如下:(1)在分析多智能体协作问题的基础上,本文将联邦学习与深度强化学习进行结合,提出了一种基于深度强化学习的多智能体联邦协作模型,并阐述了详细的多智能体协作框架以及协作算法,进一步分析了该模型对多智能体协作所带来的益处和优势。(2)追捕问题是典型的人工智能应用场景。针对传统追捕方法协作效率不高、收敛较慢的问题,本文在多智能体联邦协作模型的基础上,进一步优化了协作框架,并针对实际的追捕情况加入了多智能体动态目标分配,提出了基于多智能体联邦协作的智能追捕技术。在追捕过程中,多智能体在利用深度强化学习进行自主决策的同时,也可以通过互相协作加快学习进度,最终完成对目标的快速围捕。(3)5G异构网络(5G heterogeneous network,5G HetNet)是通信领域的未来发展方向,由于其具有异构、分层、广域的特点,容易暴露出大量的网络安全问题。因此,本文在结合5G HetNet架构的基础上,提出了一种基于多智能体联邦协作的5G HetNet安全增强技术。该技术设计了三种类型的安全监测智能体,分别部署在5G HetNet的云端、边缘以及末端,并且设计了端-边-云协作算法,能够在各智能体缩短训练时间的同时,提高安全监测的准确率,从而有效地增强5G HetNet的安全保护能力。
左文文[4](2020)在《考虑功率约束的分布式电力调度方法》文中指出21世纪以来,在新时代工业背景下,电力系统调度需要进行实时调度、检测和故障停机等操作,随着电网规模的不断扩大,传统的电力系统经济调度方法已经无法满足我国电力系统智能化和自动化发展方向。传统电力系统调度方法计算压力大,通信要求高等缺点。分布式多智能体之间能够在通信受限和不可靠等情况下完成电力系统的经济调度,并且可以根据邻居智能体信息完成检测和决策等操作,满足电力系统的智能化发展方向。本文基于分布式多智能体系统一致性的基础理论框架,研究电力系统的分布式经济调度方法。首先,将经济调度的功率约束建模为分布式多智能体系统的节点的输入饱和约束,并对具有输入饱和与输入不确定的多智能体一致性问题,提出了基于连续控制与基于事件触发控制的半全局一致性控制方法,并进行理论证明,对所提理论方案,提供数值仿真验证。然后根据具有输入饱和的多智能体一致性模型,设计了考虑功率约束的分布式电力调度算法,在电力调度过程中保证各个发电机满足自身功率约束条件,增量成本达到最优一致,保证电力系统安全稳定运行,通过数值仿真验证。在分布式调度方法中采用事件触发的触发方式,进一步设计了基于事件触发的电力系统经济调度方法,能够有效的降低通信频率,并且电力系统可以达到最优运行状态,并且通过实验仿真验证。最后设计一种量化通信下的电力系统经济调度方法,在调度过程中采用量化通信传输方式,避免通信带宽的限制,增量成本一致收敛于最优增量成本,通过仿真验证电力系统可以稳定运行。
邓云红[5](2020)在《基于自适应动态规划的多智能体一致性控制方法研究》文中研究表明随着计算技术、通信技术和控制技术的快速发展,多智能体的分布式协同控制在学术界受到了密切的关注。其中一致性控制是多智能体协同控制中一种很常见的控制问题,其目的是为了让处于同一个通信网络中的所有智能体的状态达成一致,完成同一个设定的目标。目前在多智能体协同控制中常见的控制技术有比例积分控制、模糊控制、模型预测控制等,这些方法仅仅考虑了系统的稳定性,无法实现能耗的最小化。自适应动态规划算法在保证系统稳定的基础上,求解了系统的最优控制,性能指标函数相较于传统控制方法有了显着的提升。自适应动态规划算法是自动化领域为了求解最优控制而诞生出的一种多阶段决策方法,该算法利用神经网络来近似非线性复杂系统的数学模型,为许多行业的智能化升级提供了理论支撑。自适应动态规划对于解决多智能体一致性控制这种复杂的非线性问题,具有消耗能量小、控制效果优、计算能力强的优点,优势十分明显。本文通过自适应动态规划规划算法来解决多智能体的一致性控制问题,主要研究工作如下:(1)针对一类输入受限的多智能体系统,提出了基于自适应动态规划算法的一致性控制方案。本文通过在性能指标函数中引入非二次泛函,将饱和多智能体控制问题转化为优化问题。通过性能指标函数可以构造出哈密顿-雅克比-贝尔曼方程,为求解该方程引入了策略迭代算法,并且对迭代算法的稳定性做出了分析,使得算法具有可行性。为了拟合本地性能指标函数,设计了在线神经网络控制器,对相应的哈密顿-雅克比-贝尔曼方程给出表示方法,并采用梯度下降法得到权值的自适应更新律,使得算法能够顺利运行。(2)针对外界干扰下的多智能体系统,设计了最优一致性控制算法。首先在跟随者的动力系统方程中加入了干扰项,随后又在其效用函数中,加入了干扰项的二次型函数。为了求解扰动影响下的一致性最优控制,需要同时考虑控制输入和干扰项的影响,基于非零和微分对策理论,实现纳什均衡。最后在仿真阶段,增加了与理想状态下实验结果的对比,以直观体现出本章算法的实现效果。(3)针对同时具有外界干扰和输入受限问题的多智能体系统,为其设计了分布式一致性最优控制方案。结合输入受限和外界干扰下的多智能体系统最优控制中的各自的性能指标函数,定义了这类系统的性能指标函数。设计李雅普诺夫函数,并求出了系统稳定性条件。最后的仿真实验中,在保证系统稳定的前提下,加入了一个外界扰动,同时考虑控制输入的限制条件,得出了稳定的仿真结果,实验结果验证了算法的有效性。
田袁[6](2020)在《脉冲作用下的多智能体系统一致性控制》文中研究指明多智能体系统作为分布式人工智能的一项技术,广泛的应用于计算机、金融、航天科技和生态治理等领域,一致性是多智能体系统协同完成任务时一个最基础的要求,因此,与一致性控制相关的研究受到持续的关注。在实际应用中,由于外部环境干扰,频率变化,系统切换或是人为干预等原因,智能体状态经常会受到突然跳变或瞬时扰动所产生的脉冲影响,脉冲对一致性控制有着不容忽视的影响。因此,本文致力于研究在脉冲影响下的多智能体系统一致性控制的若干问题,分别从脉冲发生的时间机制、脉冲作用对系统产生的效果、脉冲控制以及智能体的动力学行为、智能体间连接拓扑和一致性收敛时间等方面进行相关研究和探索:1、研究时变脉冲作用下的一阶非线性多智能体系统的分布式一致性控制问题。采用经典的分布式控制模型作为一致性控制策略,结合控制强度和时变脉冲效果对实现一致性控制任务的不同影响,将问题主要分为三种情况讨论:1)一致镇定性控制强度和稳定性脉冲作用,2)一致镇定性控制强度和发散性脉冲作用,3)不能一致镇定控制强度和稳定性脉冲作用。在第一种情况下,我们通过理论证明一致性控制与脉冲发生的时刻无关,问题可以弱化为无脉冲作用的一致性控制问题。在第二、三种情况下,为了克服时变脉冲作用带来的脉冲时刻不确定的理论分析困难,我们引入B-equivalence方法建立了一个固定时刻脉冲作用的系统作为原始系统的比较系统,然后利用稳定性理论相关知识证明了两个系统具有同样的稳定性质,最后通过分析固定时刻脉冲比较系统得到时变脉冲作用下的多智能体系统的一致性控制的准则。2、利用稳定性脉冲的优势,为有领航者的非线性多智能体系统设计了一组时变脉冲协议进行一致性追踪控制。首先,根据一致性追踪任务要求,建立了一致性追踪全局误差系统,该系统为一个时变脉冲系统:脉冲时刻受到智能体状态影响,脉冲跳变函数包含智能体之间局部交换信息拓扑和智能体状态的控制变量。然后,为了克服时变脉冲带来的理论分析难题,引入B-equivalence方法建立一个固定时刻脉冲系统作为比较系统,为此,我们精心挑选的一组可以使系统避免击打现象的条件,计算出两个系统解的误差二范数值,得到比较系统和原始系统具有相同的稳定性能。最后,采用Lyapunov稳定性分析方法和数学归纳法建立了时变脉冲一致性追踪控制的充分条件。3、对一致性收敛时间进行更明确的研究,研究在平均时刻脉冲作用下的二阶非线性多智能体系统的有限时间一致性控制。首先,设计了一组能够避免抖振现象的有限时间一致性的控制协议,该控制协议由智能体的邻居状态反馈和自身状态反馈组成,邻居状态反馈不仅可以用于多智能体系统一致性控制,还可以用于智能体之间的信息交换,自身状态反馈部分保证多智能体网络能够在有限之间内达到一致性。然后,根据脉冲作用效果的不同,将脉冲分为:发散效果和稳定效果。分别在这两种脉冲作用下讨论二阶非线性多智能体系统的有限时间一致性问题。建立了在不同脉冲作用下的有限时间一致性条件和它们分别对应的一致性收敛时间,一致性收敛时间里保存了初始状态,脉冲的强度和间隔和控制强度。除此之外,还建立了脉冲控制下的二阶非线性多智能体系统指数一致性控制准则。4、研究更复杂的二阶非线性多智能体系统的有限时间一致性控制问题:智能体之间的连接拓扑有向且动态,受到Markov随机过程影响,智能体状态受到脉冲的干扰。设计一组不含符号函数能够避免抖振现象的控制协议,根据控制任务要求,结合图论和随机理论知识,构建几个在一致性收敛分析中起到关键作用的矩阵。在此基础上,利用随机理论和混杂系统分析方法,分别估计了连续时间和离散时间系统的上限,然后,建立复杂二阶非线性多智能体系统的有限时间一致性控制准则。除此之外,通过调整控制器参数,还建立了脉冲干扰下的Markov切换二阶多智能体系统的指数渐近一致性的充分条件。
彭知南[7](2020)在《基于自适应动态规划的分布式控制研究及应用》文中提出近几年来,鉴于社会对复杂系统经济调度、资源分配、网络布局等优化问题的迫切需求,分布式最优控制已经成为控制科学领域中的一个研究热点。分布式最优控制问题需要对Hamilton-Jacobi-Bellman(HJB)方程进行求解,由此带来“维数灾难”问题。自适应动态规划(Adaptive Dynamic Programming,ADP)融合了动态规划、增强学习、神经网络、自适应控制、最优控制等理论和方法,是解决“维数灾难”问题的有效方法之一。因此,本文利用ADP方法研究多智能体系统的跟踪控制问题、包含控制问题、反同步控制问题以及下肢助行外骨骼机器人的人机协同控制问题。针对这些控制问题,我们提出了模型未知情况下的分布式控制器设计方法,并且对传统的ADP算法和神经网络结构进行了有效改进,提高了多智能体系统的分布式控制性能。本文的主要研究结果如下:1.研究了离散时间多智能体系统的最优跟踪控制问题。提出了一种新的ADP算法,即两阶段策略迭代算法来计算迭代控制律和迭代性能指标函数。与经典的策略迭代ADP算法相比,该算法包含一个子迭代过程来计算策略评估过程的迭代性能指标函数。其次,给出了迭代性能指标函数和迭代控制律的收敛性证明以及多智能体闭环系统的稳定性证明。同时,构建了一种执行-评价神经网络来分别逼近迭代控制律和迭代性能指标函数。与传统的多智能体分布式跟踪控制方法相比,该方法可以在系统动力学未知的情况下实现系统的在线学习和控制,并满足一定的优化指标。2.研究了离散时间多智能体系统的最优包含控制问题以及含有系统扰动的连续时间多智能体系统的最优包含控制问题。我们将图论、最优控制理论和ADP相结合来求解最优包含控制问题。首先,引入包含误差和相应的折扣性能指标函数,利用Bellman最优性原理,将传统的包含控制问题转化为最优控制问题。其次,推导出耦合的离散时间HJB方程,提出了值迭代算法对耦合HJB方程间接求解。此外,还给出了该算法的收敛性证明和闭环系统的稳定性分析。针对含有系统扰动的最优包含控制问题,本文首先将原始系统的鲁棒控制问题转化为辅助系统的最优控制问题,提出了一种分布式辅助最优控制器设计。然后,建立了原始控制问题和辅助控制问题的等价关系。最后,利用神经网络近似框架实现了该控制算法的在线求解。3.研究了多智能体系统的最优输出反同步控制问题。在大多数反同步控制问题的研究结果中,控制器的设计往往需要系统状态信息和精确的系统动力学模型,这不利于在实际系统中的应用。为了解决这个问题,我们利用多智能体系统中可测量的系统输入/输出数据来重新构造智能体动力学模型。然后,提出了一种基于输入/输出数据的值迭代算法来计算智能体的最优控制律,并对该算法进行了收敛性分析。在基于数据的控制器实现中,提出了一种增量式的神经网络结构来学习最优控制律。所提出的系统建模和控制设计仅依赖可测的系统输入/输出数据,所提出的网络参数更新规则提高了控制器的学习效率,所提出的分布式控制方法在实际工程中具有潜在应用价值。4.研究了基于ADP的下肢助行外骨骼机器人的人机协同控制问题。下肢外骨骼在截瘫和偏瘫患者的行走辅助应用中获得了广泛的关注。在偏瘫患者的助行控制设计中,外骨骼应具备控制患肢运动的能力,使其自然跟随健壮腿的步态。为了保证控制器适应不同的穿戴者,本文提出了一种基于ADP的人机协同控制策略。在所提出的控制策略中,我们首先将下肢外骨骼控制系统建模为领导者-跟随者多智能体系统,然后,提出了一种基于ADP的在线控制策略,利用策略迭代算法来迭代学习最优控制器,使得下肢外骨骼具有较好的协同控制性能。最后,给出了下肢助行外骨骼协同控制算法的神经网络实现方法。本文提出的控制设计方法克服了传统的外骨骼助行控制方法对精确系统动力学建模的依赖,并且提高了外骨骼机器人对穿戴者的在线自适应性。
张文涛[8](2020)在《多智能体系统协同控制及其在社交网络和隐私保护中的应用》文中提出多智能体系统在智能交通、智能电网、航空航天、机器人、无线传感网络等领域具有广泛的应用。协同控制使得智能体状态在集体层面上实现趋同,进而完成单个智能体无法完成的任务。本文结合国内外多智能体系统协同控制最新成果,研究了敌对与协作信息下多智能体系统的协同控制问题,并将其拓展到基于多智能体系统框架的社交网络舆论动力学和隐私保护问题。本文的主要工作总结如下:首先,提出了敌对信息下一阶多智能体系统的协同控制算法。控制协议中的松弛参数表征智能体间交互信息敌对与否,而加权增益保证了系统的收敛性。从理论上证明了加权增益的存在性,给出了系统矩阵特征值位于单位圆内且1特征值重数为1的判据。通过线性变换避免全局信息的使用,建立误差系统与原系统的关系,给出系统协同控制的条件。在上述工作的基础上,研究了领导者-跟随者和时变拓扑下具有敌对信息的协同控制问题,详细分析和探讨了所提算法和Altafini模型之间的关系。其次,研究速度和通信受限下二阶多智能体系统的协同控制问题。针对一般有向图,证明了协同控制与系统的拓扑结构和加权系数相关。为进一步降低通信负担,设计了基于事件触发和基于量化的事件触发机制下二阶多智能体系统协同控制协议。为避免全局信息,接着研究了基于节点和边的协同控制问题,给出相应的判定条件,推广了固定通信拓扑下二阶多智能体系统协同控制的结论。针对二阶多智能体系统,研究其敌对信息下的协同控制问题。由于速度和位置对应的松弛变量通常不具有相关性,与一阶系统和协作信息交互下二阶系统相比,敌对信息下二阶多智能体系统协同控制问题更具挑战性。证明了加权增益的存在性,给出系统矩阵有且仅有两个零特征值且非零特征值具有负实部的判据。讨论了两种特殊情形下敌对二阶多智能体系统的协同控制问题,建立了相应的协同控制判据。针对一般线性多智能体系统,研究敌对信息下的协同控制问题,给出系统协同控制判据以及智能体最终收敛值。对于智能体状态不能直接获得的情况,基于输出信息,设计了分布式观测器,保证智能体实现协同的同时观测误差收敛到零;分析了系统的协同控制区域。考虑输入饱和与敌对信息共同作用下一般线性多智能体系统的半全局协同控制问题,利用低增益反馈给出相应的判据。随后,拓展敌对信息下多智能体系统框架,研究基于多智能体系统的社交网络舆论动力学。引入评估网络刻画个体对邻居个体观念的认知取向,即敌对或信任;利用交互网络表征个体间的交互机理。研究表明协作的评估网络导致观念一致性,而敌对的评估网络则形成观念群分。详细分析了协作、敌对评估网络和观念一致性之间的关系。利用随机凸优化方法,给出先验约束下估计评估网络所需的采样下界。将上述结果推广到多问题关联约束的情形,给出观念一致性、群分和稳定的判据。最后研究多智能体系统的隐私保护问题。基于最小能观子空间,证明加入适当的噪声可以实现智能体初始值的隐私保护。提出基于节点的隐私保护机制,指出只要给超过半数的节点加入噪声即可实现系统隐私保护。进一步给出基于边的隐私保护机制,证明在这种情况下即使少于半数的节点引入噪声,也能实现隐私保护,这在一定程度上揭示了系统隐私保护水平和复杂度之间的折中。
符浩[9](2020)在《基于模型参考自适应评价学习的多智能体系统同步控制》文中研究指明由于多智能体系统在各实际领域中都具有十分广泛的应用,协调控制作为多智能体系统研究的一个重要分支受到了普遍关注。多智能体分布式同步控制是协调控制的一个基本研究方向。同步控制是指以网络作为智能体之间信息交流的通信媒介,通过设计控制器或控制协议,实现各智能体行为一致。现有相关研究更多地针对简单动力学模型的多智能体系统,比如单或双积分器。而且,其控制协议的设计依赖于系统动力学模型。然而,实际多智能体系统往往是复杂非线性系统,包括外界扰动与系统动力学模型未知。另外,在实际中也要求多智能体系统具有柔性协作能力和最优系统性能。以上实际情况引起耦合Bellman方程求解困难的问题,导致难以实现非线性多智能体系统的分布式同步控制,因而大大限制了多智能体系统在复杂环境下的应用。为此,基于自适应评价设计(Adaptive critic designs,ACDs)的自学习特点,本文展开基于ACDs的复杂非线性多智能体系统分布式同步控制研究。本文的主要研究内容概括如下。(1)模型未知单输入非线性系统的模型参考自适应评价学习控制针对具有持续扰动的模型未知单输入非线性系统,为解决模型参考自适应控制中由ACDs引入的神经网络逼近误差问题,提出模型参考自适应评价学习(Model reference adaptive critic learning,MRACL)控制方法,实现非线性系统在线实时柔性跟踪参考模型行为,同时保证闭环控制系统最优控制性能。同时,该方法也可保证无抖振滑模控制的可实施性,进而实现对逼近误差与扰动的抑制。(2)模型完全未知多输入非线性系统的监督模型参考自适应评价学习控制在模型参考自适应评价学习控制方法的基础上,针对多输入非线性系统,在不要求有界系统漂移动力学的假设下,通过引入监督器到模型参考自适应评价学习控制,研究了监督模型参考自适应评价学习控制方法,并定义了学习模式和控制模式。引入的监督器不仅可以指导执行-评价网络的学习,而且也可以产生无抖振滑模控制量,解决了模型未知多输入非线性系统持续扰动和神经网络逼近误差的鲁棒性问题。(3)模型部分未知非线性多智能体系统最优同步控制针对模型部分未知的非线性多智能体系统,局部邻域跟踪误差动力学引入了邻居智能体状态,导致耦合Bellman方程求解更为困难,这是最优同步控制协议设计的关键难点。针对这一问题,本文构造了一种分层分布式最优同步控制结构。在分散式模型参考控制层采用神经网络自适应控制方法,实现各个智能体跟踪相应的参考模型行为;在分布式最优同步控制层中,以各参考模型和领导者为个体构建参考多智能体系统,研究了分布式值迭代学习方式,并提出了分布式模型参考自适应评价学习同步控制方法,使参考多智能体系统达到Nash均衡,保证所有参考模型行为一致,实现多智能体系统最优同步控制。(4)模型完全未知非线性多智能体系统最优同步控制针对非线性多智能体系统动力学模型完全未知的情况,构建了基于无模型分布式模型参考自适应评价学习的分层分布式最优同步控制结构。在分散式模型参考控制层,为了降低最优同步控制的计算量,设计了一种类离线神经网络自适应控制器;在分布式最优同步控制层中,提出了分布式参考策略迭代学习方式,获得具有复合函数的耦合Bellman非线性方程的Nash均衡解,并发展了无模型分布式模型参考自适应评价学习同步控制方法,在不利用系统模型先验知识下,保证多智能体系统达到最优同步。(5)具有激活领导者的多智能体系统最优同步控制针对具有外界扰动的激活领导者系统,构建了基于分布式监督模型参考自适应评价学习的分层分布式最优同步控制结构。在分散式模型参考控制层,采用所提的监督模型参考自适应评价学习控制方法,实现对外界扰动和逼近误差的抑制;在分布式最优同步控制层中,以各参考模型为个体构建参考多智能体系统,发展分布式监督模型参考自适应评价学习同步控制方法,使得参考多智能体系统达到Nash均衡,实现多智能体系统的最优同步控制,并保证多智能体系统的柔性协作能力。
李英桢[10](2020)在《多智能体系统的边动态二分一致性研究》文中认为多智能体系统近年来成为控制领域和人工智能领域研究的一个热点问题,其中系统的一致性问题具有广泛的应用价值,被大量学者所关注。本文在一致性研究的基础上,充分考虑到系统中各智能体彼此之间耦合关系的作用,即边动态的影响,对正负混合加权有向图下的多智能体系统的边动态一致性进行分析。本文研究的主要内容和贡献如下:首先对多智能体系统进行了详细的介绍,对系统中的边动态、一致性和时滞等概念进行了细致的描述,并且全面介绍了有关图论、矩阵论和稳定性理论等理论基础知识,以便对相关一致性问题展开研究。其次,针对对边符号对称的强连通有向图下的无时滞多智能体系统,分别构造了一阶和二阶边动态系统模型,在此基础上,设计了对应的边动态二分一致性控制协议,利用规范变换矩阵构造出正负混合权重系统对应的正权系统,利用该变换将正负混合权重系统的二分一致性问题转化为一般系统的一致性问题,进一步将系统的一致性问题通过矩阵变换转化为对应系统的稳定性问题,在稳定性理论的基础上对系统的稳定性展开研究,并就此利用MATLAB进行实例仿真。最后在无时滞多智能体系统的研究基础上,在模型中加入不均匀的固定时滞,构造出一阶和二阶含时滞多智能体系统的边动态模型,设计了系统的时滞信息,在此基础上设计了含时滞的边动态二分一致性控制协议,同无时滞系统类似,利用规范变换和矩阵变换构造新系统,将原系统的二分一致性问题转变成新系统的稳定性问题,并利用李亚普诺夫第二法对系统的稳定性进行分析,结合MATLAB中的LMI工具箱对系统时滞进行分析,进一步得到含时滞多智能体实现边动态二分一致性的条件,并就此利用MATLAB进行实例仿真。
二、分布式人工智能与多智能体系统的研究与发展(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、分布式人工智能与多智能体系统的研究与发展(论文提纲范文)
(1)多智能体系统事件触发编队控制研究(论文提纲范文)
致谢 |
摘要 |
Abstract |
符号清单 |
1 绪论 |
1.1 课题来源 |
1.2 研究背景及意义 |
1.3 国内外研究现状 |
1.3.1 多智能体系统编队控制研究进展 |
1.3.2 多智能体系统事件触发控制研究进展 |
1.4 存在的关键问题 |
1.5 论文的主要内容及结构安排 |
2 理论基础 |
2.1 图论及相关引理 |
2.2 编队相关定义 |
2.3 系统稳定性理论 |
2.4 其它相关引理 |
3 基于状态观测器的多智能体系统事件触发时变编队控制 |
3.1 引言 |
3.2 问题描述 |
3.3 分布式事件触发编队控制策略 |
3.4 分布式自触发编队控制策略 |
3.5 仿真验证 |
3.6 本章小结 |
4 受扰多智能体系统固定时间事件触发编队控制 |
4.1 引言 |
4.2 问题描述 |
4.3 固定时间事件触发实际编队跟踪控制算法设计 |
4.4 固定时间自触发实际编队跟踪控制算法设计 |
4.5 仿真验证 |
4.6 本章小结 |
5 基于采样数据的多智能体系统有限时间事件触发编队控制 |
5.1 引言 |
5.2 问题描述 |
5.3 基于采样数据的有限时间事件触发编队跟踪策略 |
5.4 基于采样数据的有限时间自触发编队跟踪策略 |
5.5 仿真验证 |
5.6 本章小结 |
6 基于采样数据的多智能体系统动态事件触发编队控制 |
6.1 引言 |
6.2 问题描述 |
6.3 基于采样数据的动态事件触发编队控制策略 |
6.4 仿真验证 |
6.5 本章小结 |
7 基于采样数据的多无人车编队跟踪实验 |
7.1 引言 |
7.2 多无人车实验验证平台 |
7.3 无人车运动学模型 |
7.4 基于采样数据的多无人车有限时间事件触发编队跟踪实验 |
7.5 基于采样数据的多无人车固定时间事件触发编队跟踪实验 |
7.6 本章小结 |
8 结论 |
8.1 本文总结 |
8.2 未来展望 |
参考文献 |
作者简历及在学研究成果 |
学位论文数据集 |
(2)基于博弈论和多智能体强化学习的城市道路网络交通控制方法研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 课题来源 |
1.2 研究背景 |
1.3 研究现状综述 |
1.3.1 城市道路网络交通控制 |
1.3.2 城市道路网络动态交通分配 |
1.3.3 城市道路网络中的多智能体强化学习 |
1.3.4 研究现存问题 |
1.4 研究目的及意义 |
1.5 研究内容框架 |
第2章 城市道路网络分布式动态交通分配方法 |
2.1 动态交通分配 |
2.1.1 动态交通分配问题 |
2.1.2 用户均衡和系统最优 |
2.1.3 动态交通分配的主要数学形式 |
2.1.4 动态交通分配模型的缺陷 |
2.2 多智能体强化学习 |
2.2.1 多智能体系统 |
2.2.2 强化学习机制 |
2.2.3 多智能体强化学习算法 |
2.3 动态交通分配决策者智能体架构 |
2.3.1 决策者智能体状态空间 |
2.3.2 决策者智能体动作空间 |
2.3.3 决策者智能体回报函数 |
2.3.4 决策者智能体的学习率机制 |
2.4 动态交通分配空间约束建议者智能体架构 |
2.4.1 建议者智能体的状态空间 |
2.4.2 建议者智能体的动作空间 |
2.4.3 建议者智能体的回报函数 |
2.4.4 建议者智能体的学习率机制 |
2.5 异构建议者多智能体强化学习 |
2.5.1 HAB-MARL 框架的应用 |
2.5.2 HAB-MARL 算法 |
2.6 本章小结 |
第3章 城市道路网络分布式交通信号控制方法 |
3.1 城市道路网络交通信号控制 |
3.1.1 URNTSC优化目标选取 |
3.1.2 URNTSC方法主要形式 |
3.1.3 多智能体强化学习在URNTSC中的应用 |
3.1.4 当前URNTSC方法可改进性 |
3.2 交通管控中的博弈论 |
3.2.1 博弈论形式及基本分类 |
3.2.2 博弈中的均衡解 |
3.2.3 博弈论在交通系统中的应用形式 |
3.3 分布式交通信号控制智能体架构 |
3.3.1 信号控制智能体状态空间 |
3.3.2 信号控制智能体动作空间 |
3.3.3 信号控制智能体决策过程 |
3.3.4 信号控制智能体回报函数 |
3.3.5 信号控制智能体的学习率机制 |
3.4 混合策略纳什均衡多智能体强化学习 |
3.4.1 MSNE-MARL 框架的应用 |
3.4.2 MSNE-MARL 算法 |
3.5 本章小结 |
第4章 城市道路网络交通信号控制鲁棒性增强方法 |
4.1 复杂网络关键节点判别技术 |
4.1.1 图论基础 |
4.1.2 复杂网络理论 |
4.1.3 关键节点判别技术 |
4.1.4 现有关键节点判别技术局限性 |
4.2 节点影响力传播机制 |
4.2.1 社会网络影响力传播机制 |
4.2.2 基于 MAS 的节点影响力传播机制 |
4.2.3 影响力传播机制改进关键点 |
4.3 MAS-AITM的URNTSC鲁棒性增强框架 |
4.3.1 MAS-AITM中节点等级度量及关键节点判别机制 |
4.3.2 MAS-AITM节点交互关系的分类 |
4.3.3 MAS-AITM节点交互关系的各向异性自择机制 |
4.3.4 MAS-AITM节点交互机制 |
4.3.5 URNTSC中鲁棒性增强构建的其他事项 |
4.4 本章小结 |
第5章 数值模拟框架及验证测试 |
5.1 城市道路网络数值模拟框架 |
5.1.1 元胞传输模型 |
5.1.2 基于CTM-DNL的数值模拟框架 |
5.1.3 城市道路网络交叉口转弯比动态构建方法 |
5.2 HAB-MARL分布式动态交通分配方法验证分析 |
5.2.1 出行成本函数选用 |
5.2.2 验证方法选用 |
5.2.3 验证网络选用 |
5.2.4 验证输入值设置 |
5.2.5 HAB-MARL验证分析 |
5.2.6 本节小结 |
5.3 MSNE-MARL分布式交通信号控制方法验证分析 |
5.3.1 验证指标选用 |
5.3.2 验证方法选用 |
5.3.3 验证网络选用 |
5.3.4 验证输入值设置 |
5.3.5 验证方法参数标定 |
5.3.6 MSNE-MARL验证分析 |
5.3.7 本节小结 |
5.4 MAS-AITM的URNTSC鲁棒性增强方法验证分析 |
5.4.1 验证方法选用 |
5.4.2 验证网络选用 |
5.4.3 验证输入值设置 |
5.4.4 MAS-AITM验证分析 |
5.4.5 本节小结 |
5.5 本章小结 |
第6章 总结与展望 |
6.1 工作总结 |
6.2 主要创新点 |
6.3 研究展望 |
参考文献 |
作者简介及在学期间所取得的科研成果 |
致谢 |
(3)多智能体深度强化学习协作技术研究与应用(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景与意义 |
1.2 国内外研究历史与现状 |
1.3 论文主要研究内容 |
1.4 论文的结构安排 |
第二章 相关技术研究 |
2.1 强化学习 |
2.1.1 基本模型 |
2.1.2 常见算法 |
2.1.3 深度强化学习 |
2.2 多智能体协作 |
2.2.1 多智能体协作模式 |
2.2.2 多智能体深度强化学习 |
2.3 联邦学习 |
2.3.1 基本模型 |
2.3.2 联邦学习的分类与应用 |
2.4 本章小结 |
第三章 基于深度强化学习的多智能体联邦协作模型 |
3.1 多智能体协作问题的描述与分析 |
3.1.1 协作问题的描述 |
3.1.2 协作问题的分析 |
3.2 多智能体联邦协作模型的框架与算法设计 |
3.2.1 模型框架 |
3.2.2 基于深度强化学习的智能体模型 |
3.2.3 协作流程 |
3.2.4 参数聚合算法 |
3.3 多智能体联邦协作模型的优势分析与表现 |
3.4 本章小结 |
第四章 基于多智能体联邦协作的智能追捕技术 |
4.1 追捕问题描述 |
4.2 智能追捕模型与算法设计 |
4.2.1 追捕模型 |
4.2.2 任务分配 |
4.2.3 追捕协作算法 |
4.3 仿真与结果分析 |
4.3.1 仿真场景描述 |
4.3.2 仿真结果分析 |
4.4 本章小结 |
第五章 基于多智能体联邦协作的5G HetNet安全增强技术 |
5.1 5G HetNet及其安全问题描述 |
5.2 协作模型与算法设计 |
5.2.1 协作框架 |
5.2.2 智能体模型 |
5.2.3 协作算法 |
5.3 仿真与结果分析 |
5.3.1 仿真场景描述 |
5.3.2 仿真结果分析 |
5.4 本章小结 |
第六章 总结与展望 |
6.1 全文总结 |
6.2 未来工作展望 |
致谢 |
参考文献 |
攻读硕士学位期间取得的成果 |
(4)考虑功率约束的分布式电力调度方法(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 选题背景和研究意义 |
1.2 分布式一致性电力系统调度研究现状 |
1.2.1 电力系统经济调度研究现状 |
1.2.2 分布式多智能体研究现状概述 |
1.3 本文主要研究内容 |
第二章 基础理论 |
2.1 图论 |
2.1.1 图论基本概念 |
2.1.2 图的Laplacian矩阵 |
2.2 多智能体一致性相关理论基础 |
2.2.1 系统的稳定性 |
2.2.2 概率量化方法 |
2.3 发电机的耗量特性和等微增率准则 |
2.3.1 发电机组的耗量特性 |
2.3.2 等耗量微增率准则 |
2.4 本章小结 |
第三章 具有匹配不确定性和输入饱和的多智能体一致性 |
3.1 模型描述 |
3.2 多智能体系统分布式一致性 |
3.2.1 分布式控制器和算法设计 |
3.2.2 一致性证明 |
3.2.3 仿真分析 |
3.3 基于事件触发的多智能体系统一致性 |
3.3.1 控制器和算法设计 |
3.3.2 证明分析 |
3.3.3 仿真分析 |
3.4 本章小结 |
第四章 考虑功率约束的分布式电力系统经济调度 |
4.1 考虑功率约束的分布式一致性电力系统调度方法 |
4.1.1 分布式电力系统经济调度方法 |
4.1.2 仿真验证 |
4.2 基于事件触发电力系统经济调度方法 |
4.2.1 基于事件触发电力系统经济调度方法的模型基础 |
4.2.2 调度算法设计 |
4.2.3 一致性分析 |
4.2.4 调度方法仿真分析 |
4.3 基于量化通信的电力系统经济调度方法 |
4.3.1 量化通信电力系统经济调度算法设计 |
4.3.2 仿真分析 |
4.4 本章小结 |
第五章 总结和展望 |
5.1 总结 |
5.2 展望 |
参考文献 |
附录1 攻读硕士学位期间撰写的论文 |
附录2 攻读硕士学位期间申请的专利 |
致谢 |
(5)基于自适应动态规划的多智能体一致性控制方法研究(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 研究背景与意义 |
1.2 国内外研究现状 |
1.2.1 多智能体协同控制研究进展 |
1.2.2 ADP国内外研究现状 |
1.3 研究内容与组织机构 |
第2章 理论基础简介 |
2.1 通信拓扑图 |
2.2 自适应动态规划的基本理论 |
2.3 分布一致性问题 |
2.4 本章小结 |
第3章 基于自适应动态规划的输入受限多智能体一致性控制 |
3.1 输入饱和的非线性多智能体系统及协同控制算法 |
3.1.1 输入饱和的多智能体系统 |
3.1.2 输入饱和的多智能体一致性ADP算法设计 |
3.2 策略迭代算法及收敛性分析 |
3.3 输入受限条件下在线NN控制器设计 |
3.4 输入饱和多智能体一致性仿真实验 |
3.5 本章小结 |
第4章 外界干扰下基于自适应动态规划的多智能体一致性控制 |
4.1 外界干扰下的非线性系统及协同控制算法 |
4.1.1 外界干扰下的多智能体系统 |
4.1.2 外界干扰下多智能体的最优一致性控制算法 |
4.2 外界干扰下基于ADP的在线NN控制器设计及稳定性分析 |
4.3 外界干扰下多智能体一致性仿真实验 |
4.4 本章小结 |
第5章 外界干扰下输入受限的多智能体一致性最优控制 |
5.1 外界干扰下输入受限的非线性系统及协同控制算法 |
5.1.1 外界干扰下输入受限的多智能体系统 |
5.1.2 外界干扰下输入受限的多智能体系统的最优控制算法 |
5.2 外界干扰下输入饱和多智能体系统在线NN控制器设计及稳定性分析 |
5.3 外界干扰下输入饱和的多智能体一致性仿真实验 |
5.4 本章小结 |
第6章 结论与展望 |
6.1 工作总结 |
6.2 研究展望 |
参考文献 |
致谢 |
作者简历及攻读学位期间发表的学术论文与研究成果 |
(6)脉冲作用下的多智能体系统一致性控制(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 多智能体系统 |
1.1.1 一致性 |
1.1.2 智能体动力学特性 |
1.1.3 智能体间连接拓扑 |
1.1.4 一致性行为 |
1.1.5 控制策略分类 |
1.2 脉冲相关理论 |
1.2.1 稳定性脉冲及脉冲控制 |
1.2.2 发散性脉冲及脉冲干扰 |
1.2.3 时变脉冲作用 |
1.2.4 时变脉冲控制理论研究现状 |
1.3 预备知识 |
1.4 主要研究内容和思路 |
第二章 时变脉冲作用下的多智能体系统分布式一致性控制 |
2.1 引言 |
2.2 模型描述和预备知识 |
2.3 比较系统的建立 |
2.3.1 B-equivalence方法 |
2.3.2 比较系统 |
2.4 一致性控制准则建立 |
2.4.1 稳定脉冲且镇定性控制强度 |
2.4.2 不能镇定控制强度或发散脉冲作用 |
2.5 数值模拟 |
2.5.1 稳定性脉冲和镇定性控制强度 |
2.5.2 发散性脉冲和镇定性控制强度 |
2.5.3 稳定性脉冲和不能一致性镇定的控制强度 |
2.6 本章小结 |
第三章 带领航者非线性多智能体系统的时变脉冲追踪控制 |
3.1 引言 |
3.2 模型描述和预备知识 |
3.3 比较系统 |
3.4 主要结论 |
3.5 数值模拟 |
3.6 本章小结 |
第四章 脉冲作用下的二阶多智能体系统有限时间一致性控制 |
4.1 引言 |
4.2 模型描述及控制协议提出 |
4.3 主要结论 |
4.3.1 发散脉冲作用 |
4.3.2 稳定性脉冲作用 |
4.4 数值仿真 |
4.5 本章小结 |
第五章 脉冲干扰的动态二阶多智能体系统有限时间均方一致性控制 |
5.1 引言 |
5.2 预备知识 |
5.3 问题提出与建模 |
5.4 主要结论 |
5.4.1 有限时间均方一致性 |
5.4.2 指数均方一致性 |
5.5 数值仿真 |
5.6 本章小结 |
第六章 总结与展望 |
6.1 本文总结 |
6.2 未来研究方向 |
参考文献 |
致谢 |
博士攻读期间完成的学术论文 |
攻读博士期间参加的科研项目 |
附件 |
(7)基于自适应动态规划的分布式控制研究及应用(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究工作的背景与意义 |
1.2 国内外研究发展与现状 |
1.2.1 自适应动态规划 |
1.2.1.1 传统的自适应动态规划 |
1.2.1.2 无模型的增强学习 |
1.2.2 基于ADP的多智能体系统控制 |
1.3 本文的主要研究内容及组织结构 |
第二章 自适应动态规划的理论基础 |
2.1 动态规划的基本原理 |
2.1.1 离散时间系统的动态规划 |
2.1.2 连续时间系统的动态规划 |
2.2 自适应动态规划的基本框架 |
2.3 近似迭代算法原理 |
2.3.1 值迭代算法 |
2.3.2 策略迭代算法 |
2.4 本章小结 |
第三章 基于数据驱动的多智能体系统最优跟踪控制 |
3.1 引言 |
3.2 最优跟踪控制问题建模 |
3.3 分布式最优控制设计 |
3.3.1 离散Hamilton-Jacobi-Bellman方程 |
3.3.2 两阶段策略迭代算法 |
3.3.3 算法性能及控制系统稳定性分析 |
3.4 基于神经网络的在线学习实现方法 |
3.4.1 Critic网络设计 |
3.4.2 Actor网络设计 |
3.5 数值仿真分析 |
3.6 本章小结 |
第四章 基于自适应动态规划的多智能体系统包含控制 |
4.1 引言 |
4.2 离散时间系统的包含控制问题 |
4.2.1 最优包含控制问题建模 |
4.2.2 分布式最优控制设计与分析 |
4.2.3 执行-评价神经网络的控制实现 |
4.2.4 数值仿真分析 |
4.3 带有扰动的连续时间系统的包含控制问题 |
4.3.1 分布式最优包含控制设计 |
4.3.2 稳定性分析 |
4.3.3 最优控制的在线学习 |
4.3.4 数值仿真分析 |
4.4 本章小结 |
第五章 合作-竞争网络下多智能体系统的最优输出反同步控制 |
5.1 引言 |
5.2 最优输出反同步控制问题建模 |
5.3 基于输入-输出数据的多智能体系统模型重构 |
5.4 基于可测数据的分布式最优控制设计 |
5.4.1 基于可测数据的值迭代算法 |
5.4.2 系统稳定性分析 |
5.4.3 算法收敛性分析 |
5.5 增量式执行-评价网络在线求解方法 |
5.5.1 增量式Critic网络设计 |
5.5.2 增量式Actor网络设计 |
5.5.3 在线学习控制算法 |
5.6 数值仿真分析 |
5.7 本章小结 |
第六章 基于自适应动态规划的下肢外骨骼机器人助行控制 |
6.1 引言 |
6.2 外骨骼系统人机协同控制问题建模 |
6.2.1 穿戴者-外骨骼交互机制 |
6.2.2 系统动力学建模与问题描述 |
6.3 基于自适应动态规划的分布式控制策略 |
6.3.1 分布式助行控制算法设计 |
6.3.2 基于神经网络的在线学习机制 |
6.4 仿真实验分析 |
6.4.1 数值仿真分析 |
6.4.2 下肢助行外骨骼实验验证 |
6.5 本章小结 |
第七章 总结与展望 |
7.1 全文总结 |
7.2 后续工作展望 |
致谢 |
参考文献 |
攻读博士学位期间取得的成果 |
(8)多智能体系统协同控制及其在社交网络和隐私保护中的应用(论文提纲范文)
摘摘要 |
ABSTRACT |
符号表 |
第1章 绪论 |
1.1 研究背景及意义 |
1.1.1 多智能体系统 |
1.1.2 多智能体系统协同控制、舆论动力学及隐私保护 |
1.2 研究现状 |
1.2.1 协作/敌对多智能体系统 |
1.2.2 基于多智能体系统的社交网络舆论动力学 |
1.2.3 基于多智能体系统的隐私保护 |
1.3 本文内容 |
第2章 预备知识 |
2.1 矩阵论、图论和多智能体系统 |
2.1.1 矩阵论 |
2.1.2 图论 |
2.1.3 多智能体系统 |
2.2 符号图和Altafini模型 |
2.2.1 符号图 |
2.2.2 Altafini模型 |
2.3 随机凸优化 |
2.4 差分隐私 |
2.5 本章小结 |
第3章 敌对信息下一阶多智能体系统协同控制 |
3.1 问题描述和系统建模 |
3.2 敌对信息下协同控制分析 |
3.2.1 加权增益的存在性 |
3.2.2 加权增益、松弛参数和系统矩阵的关系 |
3.2.3 固定拓扑下的协同控制问题 |
3.2.4 时变拓扑下的协同控制问题 |
3.3 Altafini模型讨论分析 |
3.4 数值仿真与讨论 |
3.4.1 数值仿真 |
3.4.2 讨论 |
3.5 本章小结 |
第4章 速度和通信受限下二阶多智能体系统协同控制 |
4.1 问题描述和系统建模 |
4.2 速度/通信受限下二阶多智能体系统协同控制 |
4.2.1 速度受限下二阶多智能体系统协同控制 |
4.2.2 速度和通信受限下二阶多智能体系统协同控制 |
4.3 基于节点和边的二阶多智能体系统协同控制 |
4.3.1 基于节点的二阶多智能体系统协同控制 |
4.3.2 基于边的二阶多智能体系统协同控制 |
4.4 数值仿真与讨论 |
4.4.1 数值仿真 |
4.4.2 讨论 |
4.5 本章小结 |
第5章 敌对信息下二阶多智能体系统协同控制 |
5.1 问题描述与数学建模 |
5.2 敌对信息下二阶多智能体系统协同控制 |
5.2.1 加权增益、松弛参数与矩阵特征值的关系 |
5.2.2 异质加权增益下二阶多智能体系统协同控制 |
5.2.3 敌对信息下的协同控制 |
5.3 特殊约束下二阶多智能体系统协同控制 |
5.3.1 同质松弛参数下二阶多智能体系统协同控制 |
5.3.2 零速度约束下二阶多智能体系统协同控制 |
5.4 数值仿真与讨论 |
5.4.1 轮式移动机器人数值仿真 |
5.4.2 讨论 |
5.5 本章小结 |
第6章 敌对信息下一般线性多智能体系统协同控制 |
6.1 问题描述和系统建模 |
6.2 静态/动态协同控制算法分析 |
6.2.1 静态协同控制算法分析 |
6.2.2 动态协同控制算法分析 |
6.2.3 敌对信息下一般线性多智能体系统协同控制区域 |
6.3 输入受限下一般线性多智能体系统协同控制 |
6.4 数值仿真与讨论 |
6.4.1 数值仿真 |
6.4.2 讨论 |
6.5 本章小结 |
第7章 基于多智能体系统的社交网络舆论动力学 |
7.1 问题描述和系统建模 |
7.2 基于协作、敌对评估网络的舆论动力学 |
7.2.1 协作评估网络下的舆论动力学 |
7.2.2 敌对评估网络下的舆论动力学 |
7.2.3 协作、敌对评估网络的关系 |
7.2.4 评估网络估计 |
7.3 多问题关联下的舆论动力学 |
7.4 数值仿真与讨论 |
7.4.1 协作评估网络 |
7.4.2 敌对评估网络 |
7.4.3 个体观念的稳定性 |
7.4.4 讨论 |
7.5 本章小结 |
第8章 基于多智能体系统的隐私保护 |
8.1 问题描述和系统建模 |
8.2 基于能观性的隐私保护判据 |
8.3 基于节点的隐私保护机制 |
8.3.1 基于节点的隐私保护条件 |
8.3.2 隐私保护机制的优化 |
8.4 基于边的隐私保护机制 |
8.4.1 基于边的隐私保护条件 |
8.4.2 隐私保护判据的优化 |
8.4.3 基于节点和边的隐私保护机制的综合 |
8.4.4 讨论 |
8.5 本章小结 |
第9章 总结与展望 |
9.1 总结 |
9.2 展望 |
参考文献 |
发表/完成论文、所获荣誉和参加科研情况 |
致谢 |
(9)基于模型参考自适应评价学习的多智能体系统同步控制(论文提纲范文)
作者简历 |
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景与意义 |
1.2 国内外研究现状 |
1.2.1 自适应评价设计的发展现状 |
1.2.2 基于自适应评价设计的同步控制研究进展 |
1.3 研究内容与主要贡献 |
1.3.1 研究内容 |
1.3.2 主要贡献 |
1.4 符号说明 |
第二章 基于MRACL的模型未知单输入非线性系统模型参考控制 |
2.1 问题描述 |
2.2 模型参考自适应评价学习控制 |
2.2.1 模型参考自适应评价学习控制结构 |
2.2.2 自适应评价学习 |
2.2.3 收敛性分析 |
2.2.4 模型参考自适应评价学习控制实现 |
2.3 数值仿真 |
2.4 本章小结 |
第三章 基于监督MRACL的模型未知多输入非线性系统模型参考控制 |
3.1 问题描述 |
3.2 监督模型参考自适应评价学习控制 |
3.2.1 监督模型参考自适应评价学习控制结构 |
3.2.2 监督网络与执行-评价网络设计 |
3.2.3 收敛性分析 |
3.2.4 监督模型参考自适应评价学习控制实现 |
3.3 数值仿真 |
3.4 本章小结 |
第四章 模型部分未知非线性多智能体系统最优同步控制 |
4.1 预备知识 |
4.2 问题描述 |
4.3 模型部分未知多智能体系统最优同步控制 |
4.3.1 总体控制结构 |
4.3.2 分散式前馈与反馈分离模型参考自适应控制 |
4.3.3 分布式模型参考自适应评价学习同步控制 |
4.4 数值仿真 |
4.5 本章小结 |
第五章 模型完全未知非线性多智能体系统最优同步控制 |
5.1 问题描述 |
5.2 模型完全未知多智能体系统最优同步控制 |
5.2.1 总体控制结构 |
5.2.2 分散式类离线模型参考自适应控制 |
5.2.3 无模型分布式模型参考自适应评价学习同步控制 |
5.3 数值仿真 |
5.4 本章小结 |
第六章 具有激活领导者的模型未知非线性多智能体系统最优同步控制 |
6.1 问题描述 |
6.2 激活领导者系统最优同步控制方法 |
6.2.1 总体控制结构 |
6.2.2 分散式监督模型参考自适应评价学习控制 |
6.2.3 分布式监督模型参考自适应评价学习同步控制 |
6.3 数值仿真 |
6.4 本章小结 |
第七章 总结与展望 |
7.1 总结 |
7.2 展望 |
致谢 |
参考文献 |
(10)多智能体系统的边动态二分一致性研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 课题的研究背景 |
1.1.1 多智能体系统概念 |
1.1.2 一致性概念 |
1.1.3 边动态概念 |
1.1.4 时滞概念 |
1.2 理论意义和应用价值 |
1.3 多智能体系统一致性研究现状与趋势 |
1.4 论文主要内容和结构安排 |
第二章 预备知识 |
2.1 图论和矩阵论 |
2.1.1 图的基本概念 |
2.1.2 图的矩阵表示 |
2.1.3 结构平衡 |
2.1.4 线图 |
2.2 稳定性理论 |
2.2.1 Lyapunov稳定的基本概念 |
2.2.2 Lyapunov稳定性的判别定理 |
2.3 本章小结 |
第三章 无时滞多智能体系统的边动态二分一致性 |
3.1 引言 |
3.2 问题描述及多智能体系统的模型及协议 |
3.2.1 问题描述 |
3.2.2 边动态二分一致性协议及系统模型 |
3.3 规范变换 |
3.4 无时滞系统的边动态二分一致性 |
3.4.1 一阶无时滞多智能体系统的边动态二分一致性 |
3.4.2 二阶无时滞多智能体系统边动态二分一致性 |
3.5 无时滞多智能体系统二分一致性仿真分析 |
3.5.1 一阶无时滞多智能体系统边动态二分一致性仿真 |
3.5.2 二阶无时滞多智能体系统边动态二分一致性仿真 |
3.6 本章小结 |
第四章 含时滞多智能体系统的边动态二分一致性 |
4.1 引言 |
4.2 问题描述 |
4.2.1 经典李雅普诺夫函数和一些引理 |
4.2.2 含时滞多智能体系统的边动态二分一致性协议 |
4.3 含时滞系统的边动态二分一致性 |
4.3.1 一阶含时滞多智能体系统边动态二分一致性 |
4.3.2 二阶含时滞多智能体系统边动态二分一致性 |
4.4 含时滞多智能体系统边动态二分一致性仿真 |
4.4.1 一阶含时滞多智能体系统边动态二分一致性仿真 |
4.4.2 二阶含时滞多智能体系统边动态二分一致性仿真 |
4.5 本章总结 |
第五章 总结与展望 |
参考文献 |
攻读学位期间的研究成果 |
致谢 |
四、分布式人工智能与多智能体系统的研究与发展(论文参考文献)
- [1]多智能体系统事件触发编队控制研究[D]. 柴小丰. 北京科技大学, 2021
- [2]基于博弈论和多智能体强化学习的城市道路网络交通控制方法研究[D]. 潘昭天. 吉林大学, 2021(01)
- [3]多智能体深度强化学习协作技术研究与应用[D]. 周思佩. 电子科技大学, 2021(01)
- [4]考虑功率约束的分布式电力调度方法[D]. 左文文. 南京邮电大学, 2020(03)
- [5]基于自适应动态规划的多智能体一致性控制方法研究[D]. 邓云红. 中国科学院大学(中国科学院大学人工智能学院), 2020(04)
- [6]脉冲作用下的多智能体系统一致性控制[D]. 田袁. 西南大学, 2020(04)
- [7]基于自适应动态规划的分布式控制研究及应用[D]. 彭知南. 电子科技大学, 2020(03)
- [8]多智能体系统协同控制及其在社交网络和隐私保护中的应用[D]. 张文涛. 天津大学, 2020(01)
- [9]基于模型参考自适应评价学习的多智能体系统同步控制[D]. 符浩. 中国地质大学, 2020
- [10]多智能体系统的边动态二分一致性研究[D]. 李英桢. 青岛大学, 2020(01)